Praktische Bedeutsamkeit empirischer Ergebnisse

Überblick

Jacobs: Versuchsplanung

Verwandte Gebiete: korrigierte Effektstärke | Exkurs | einige Effektstärketools

Praktische Bedeutsamkeit

Die Effektstärke (oder Effektgröße)

Prozentsatz der Überlappung zwischen EG und KG

Percentil des EG-Mittelwerts in der Verteilung der KG

Zusammenhang zwischen Treatment und AV

Ideale oder statistische Normen für praktische Bedeutsamkeit

Bewertung der praktischen Bedeutsamkeit

Über die Größe der Effektstärke hinausgehende Überlegungen

Fragen und Anregungen

WWW-Ressourcen

Praktische Bedeutsamkeit

eine Senkung der Prüfstreuung

Ein signifikanter Unterschied der Größenordnung von 0.1 ist größer als 0, läßt aber Zweifel an der Relevanz des Unterschieds aufkommen. Eine spezielle Diät, die an 10 000 Vpn getestet, einen signifikanten Unterschied von im Mittel 100 Gramm erbringt, wird keinen besonders beeindrucken, weil hier offenbar praktisch nicht viel erreicht wurde. Selbst wenn man eine hinsichtlich aller Validitätsarten der Versuchsplanung hervorragende Studie durchführt, kann das Ergebnis am Ende dennoch von "keinerlei praktischem Wert" sein.

Die Effektstärke (oder Effektgröße)

Da die Populationsparameter in den seltensten Fällen bekannt sind, muß man diese aufgrund von Statistiken schätzen. Man streitet sich gelegentlich darüber, was als vernünftige Streuung s eingesetzt werden soll:
a) die Streuung der Kontrollgruppe
b) die gemeinsamen Streuung aus EG und KG nach der obigen Formel aus (Bortz & Döring S. 569)

Auf der Basis der oben angegebenen Formeln läßt sich die Effektstärke berechnen. Das Vorzeichen für die Effektstärke ist gegegebenenfalls so abzuändern, daß eine positive Effektstärke der erwarteten Hypothese entspricht.

**Berechnung der Effektstärke d**
	Mittelwert	Streuung
EG
KG
Soll nur die Streuung der KG verwendet werden, so bleibt das Feld für die Streuung der EG leer.

Berechnung von Effektstärken

Exkurs

**Tabelle 1: Hypothetische Beispiele für Effektstärken**
Variable	EG	KG	s	Effektstärke
Intelligenztestwerte	110	100	15	.67
Schulnoten	2.5	2.9	.85	.47
Fearthermometer	3.0	4.2	2.2	.55

Wie man in Tabelle 1 sieht, sagt der absolute Mittelwertsunterschied zwischen den Gruppen wenig aus. Entscheidend ist der auf die Streuung der Testwerte relativierte Unterschied und dieser erlaubt eine Vergleichbarkeit über verschiedene Untersuchungsergebnisse. Schon aus diesem Grunde empfiehlt es sich, neben Mittelwerten auch immer die Streuungen (sowie zur Einschätzung der Zuverlässigkeit der Befunde auch stets N) mit anzugeben.

Für Vortest-Nachtest-Designs kann es Sinn machen, die korrigierte Effektstärke zugrundezulegen.

Prozentsatz der Überlappung beider der Verteilungen

Abbildung 1: Überlappungsbereich von EG und KG unter der Annahme normalverteilter Werte

Bei einer Effektstärke von d = .75 überlappen sich die Verteilungen von EG und KG zu 71%.
Nach Bortz und Döring (1996, S. 569) läßt sich der Überlappungsbereich der Verteilungen wie folgt berechnen

1. Man berechnet unter der Standard-Normalverteilung (M=0, s=1) die Fläche rechts von d/2
2. Man verdoppelt diese Fläche

Beispiel:

d = .5
d/2= .25
p>= .25 z unter der Standardnormalverteilung = .40
Überlappungsbereich = (.40*2) = .80
Bei einer Effektstärke von d = .5 überlappen sich die Verteilungen von EG und KG zu 80%.

Ermitteln Sie unter Zuhilfenahme der Tabellen von Prüfverteilungen den Überlappungsbereich für die Effektstärken: d = .33 und d = .80.

Percentil des EG-Mittelwerts in der Verteilung der KG.

Der entsprechende Prozentwert geht direkt aus der Effektstärke hervor, in dem die Fläche unter der Standardnormalverteilung von links bis zum einem d-Wert ermittelt (Annahme: höhere Werte für die EG). Bei einer Effektstärke von 1 ergibt sich für ein p<=1z ein Wert um .84, womit der EG-Mittelwert das 84. Percentil der KG erzielt.

Zusammenhang zwischen Treatment und AV

Berechnung von Effektgrößen

Effektstärke aus Korrelationen

Ideale oder statistische Normen für praktische Bedeutsamkeit

psychisch Kranke (EG) nach der Therapie nicht mehr von psychisch Gesunden (KG) zu unterscheiden wären,
Drogenabhängige nach einer Therapie lebenslang keine Drogen mehr nehmen würden,
Schüler mit erheblichen Schulschwierigkeiten am Ende der Maßnahme dem Durchschnitt der Klasse entsprächen.

Bewertung der praktischen Bedeutsamkeit

Konventionelle Richtgrößen für Effektstärken

Bewertung der Effektstärke

Um eine gewisse Orientierung aus inhaltlichen Bereichen zu ermöglichen, wird in Tabelle 2 der Unterschied bzw. der Zusammenhang und das Ausmaß des Effektes gegenübergestellt, wobei es sich nur um eine grobe Schätzung handeln kann, die jedoch realistisch erscheint.

Tabelle 2: Einige Einschätzungen zur Bedeutsamkeit von Befunden auf der Basis der Effektstärke
Vergleiche Effektstärke
(grob eingeschätzt)

Geschlechtsunterschiede bzgl. Intelligenz oder Schulnotendurchschnitt Null bis ziemlich klein

Computerlernprogramm erzielt höhere Lerneffektivität als Unterricht (bis 1994) klein bis höchstens mittel

Korrelation: Je höher die Prüfungsängstlichkeit, desto schlechter die Noten klein bis mittel

Zusammenhang: Je höher die Intelligenz, desto besser die Schulnoten mittel bis groß

Positiver Zusammenhang zwischen der Aggressivität der Eltern und ihrer Kinder groß

Höhere Intelligenz von Studenten im Vergleich zur Gesamtbevölkerung sehr groß

Schnelleres Erkennen von Kurvenverläufen mit Graphiken vs. Tabellen sehr groß

**Tabelle 2**: Einige Einschätzungen zur Bedeutsamkeit von Befunden auf der Basis der Effektstärke
Vergleiche	Effektstärke (grob eingeschätzt)
Geschlechtsunterschiede bzgl. Intelligenz oder Schulnotendurchschnitt	Null bis ziemlich klein
Computerlernprogramm erzielt höhere Lerneffektivität als Unterricht (bis 1994)	klein bis höchstens mittel
Korrelation: Je höher die Prüfungsängstlichkeit, desto schlechter die Noten	klein bis mittel
Zusammenhang: Je höher die Intelligenz, desto besser die Schulnoten	mittel bis groß
Positiver Zusammenhang zwischen der Aggressivität der Eltern und ihrer Kinder	groß
Höhere Intelligenz von Studenten im Vergleich zur Gesamtbevölkerung	sehr groß
Schnelleres Erkennen von Kurvenverläufen mit Graphiken vs. Tabellen	sehr groß

Gelegentlich werden in der Literatur auch andere Maße für die Größe eines Effektes verwendet. Dazu zählt die Korrelation r zwischen UV und AV sowie h² (= Anteil der durch die UV aufgeklärten Varianz gemessen an der Gesamtvarianz in der Stichprobe, genauer: ( SAQ zwischen den Bedingungen) /( SAQ innerhalb der Bedingungen). Der entsprechende Anteil der aufgeklärten Varianz in der Population bzw. die Schätzung dieses Anteils heißt w² ). Die Einschätzung dieser Maße zur Effektstärke d entnehme man der nachfolgenden Tabelle:

**Kleine, mittlere und hohe Effektgröße für unterschiedliche Effektstärkemaße**
	klein	mittel	hoch	Quelle
Effektgröße d	.2	.5	.8	Bortz & Döring (1995)
Korrelation r	.1	.3	.5	Sedlmeier (1996)
aufgeklärte Varianz h²	.01	.06	.14	Gediga [1998]

Über die Größe der Effektstärke hinausgehende Überlegungen

Die weiteren Überlegungen sollten etwa in Erwägung ziehen:

wie hoch die Kosten für das Treatment sind
welchen praktischen Wert eine bestimmte Unterschiedseinheit hat.
wie schwierig es ist, die gewünschten Unterschiede zwischen EG und KG zu erzielen.
in wie weit das Ergebnis mit den bisherigen Ergebnissen zu dieser Thematik übereinstimmt.

Aus der Diagnostik ist bekannt, das selbst geringe Effekte für bestimmte praktische Entscheidungsprobleme einen hohen Nutzen haben können. David M. Lane bietet in der Java-Simulation "A "Small" Effect Size Can Make a Large Difference " die Möglichkeit an, das Ausmaß des Effektes (-allerdings als erklärte Varianz -) zu variieren, um in Abhängigkeit davon den erwarteten Gewinn für praktische Entscheidungen abschätzen zu können. Ein besonders drastisches Beispiel für den Nutzen geringer Effektstärke -hier als r² - habe ich unter der URL: http://www-class.unl.edu/psycrs/941/q1/ES/tsld005.htm [22.5.2000] gefunden : some small effects are very meaningful (r² = .04 in a study of jury decision bias means 10 fewer “innocent” people sentenced to death per year)

Bei einer rein theorieorientieren Forschung kommt es weniger darauf an, große Effekte zu produzieren, sondern eine möglichst präzise Übereinstimmung der Ergebnisse mit den Hypothesen nachzuweisen. Dazu sind allerdings sehr spezifische Erwartungen an die Befunde zu explizieren, was meist nur in mathematischen Modellen möglich ist, deren Geltungsbereich häufig auf wirklichkeitsfremde Laborsituationen beschränkt bleibt.

Jede empirische Forschung verlangt aber eine gewisse Vorstellung darüber, in welchem Ausmaß ein potentieller Effekt zu erwarten ist, weil davon unter anderem das statistische Entscheidungsproblem abhängig ist (siehe statistische Validität).

Fragen und Anregungen

Aufgabe 2
Versuchen Sie sich in die Situation "5 Minuten vor der nächsten Klausur" hineinzuversetzen. Kreuzen Sie bitte auf der folgenden Skala an, wieviel Angst Sie höchstwahrscheinlich zu diesem Zeitpunkt haben werden.

0 = überhaupt
keine Angst

-
0

--
1

--
2

--
3

--
4

--
5

--
6

--
7

--
8

--
9

-
10

10 = panische
Angst

Stellen Sie sich nun vor, durch irgendwelche Maßnahmen könnte es gelingen, ihre Angst um 2 Punkte zu senken.

Ich schätze diese 2 Punkte ein als

ganz schwachen Effekt
schwachen Effekt
mittleren Effekt
großen Effekt

Aufgabe 3
Die Effektstärke (Effektgröße) zur Einschätzung der praktischen Bedeutsamkeit hängt ab von
(zwei Angaben treffen zu)

1) dem Mittelwertsunterschied zwischen EG und KG
2) der Anzahl der Versuchspersonen
3) dem Signifikanzniveau
4) dem p-Wert bei der Signifikanzprüfung
5) der Streuung in EG und KG

Aufgabe 4

**Tabelle 1: Ergebnisse aus 3 Studien**
Studie	Anzahl der Vpn	EG	KG	Streuung der KG	Signifikanz
A	50	110	100	10	**
B	100	20	15	10	*
C	150	60	45	20	***

Bringen Sie die Effektstärken der Studien A bis C in eine absteigende Reihenfolge und schreiben Sie das Ergebnis als Buchstabenfolge in das Antwortfeld
Beispiel: ABC würde bedeuten. Die Effektstärke ist bei Untersuchung A am höchsten, bei Untersuchung B in der Mitte und bei Untersuchung C am geringsten.

Aufgabe 5
Je höher die Effektstärke (Effektgröße)

desto mehr überlappen sich die Verteilungen zwischen EG und KG
desto zuverlässiger sind die gefundenen Unterschiede zwischen EG und KG
desto mehr liegt der Mittelwert der EG auf einem extremen Percentil in der Verteilung der KG
desto geringer sind die Streuungen von Experimental und Kontrollgruppe

Aufgabe 6
Warum reicht die Effektstärke allein nicht aus, um die Bedeutsamkeit einer Maßnahme in einem größeren Gesamtzusammenhang zu begründen.

WWW-Ressourcen:

Peter Sedlmeier: Jenseits des Signifikanztest-Rituals: Ergänzungen und Alternativen
Harald Wallach: 4. Power- und Effektstärkenanalyse (S.35-37)
Robert Coe: What is an 'Effect Size'?
Will G Hopkins A Scale of Magnitudes for Effect Statistics

created Dez. 1997; last update 27.06.2003; Bernhard Jacobs, b.jacobs@mx.uni-saarland.de