Um eine Studie kritisch zu bewerten, müssen Angaben zu Interessenskonflikten, Studienfinanzierung und -protokoll sowie die interne und externe Validität überprüft werden. Ebenso wichtig ist aber auch die Qualität der Berichterstattung. Denn trotz passendem Studiendesign und konsequenter Durchführung kann es in Publikationen aufgrund der Berichterstattung eine Fülle von Widersprüchen geben.
Vor allem Abweichungen zwischen den numerischen Ergebnissen aus der statistischen Analyse und der textlichen Darstellung ergeben eine Verzerrung, die üblicherweise den Nutzen einer Intervention betont, während Schäden heruntergespielt werden (Spin).
Diese Verzerrung bleibt verborgen, wenn man den Text nur oberflächlich liest – oder gar nur das Abstract. Nachfolgend zwei Beispiele zu anschaulichen Aspekten, die in der Berichterstattung einer Studie häufig zu Missverständnissen und Fehlinterpretationen der Ergebnisse führen:
1. Absolute oder relative Angaben?
Marginale absolute Unterschiede lassen sich in prozentualer Darstellung eindrucksvoll aufblähen: Wenn jemand beispielsweise von einer “Halbierung des Risikos” (relatives Risiko [RR] = 0,5) spricht, diese Änderung jedoch von 2 : 100.000 zu 1 : 100.000 erfolgt, suggeriert die Prozentangabe (− 50 Prozent) allein eine Bedeutung, die nicht gegeben ist.
Da eine Änderung von 2 : 10 auf 1 : 10 jeweils die gleiche Risikorelation ausdrückt, aber klinisch wesentlich relevanter wäre, ist die Angabe von absoluten Zahlen unverzichtbar, um die tatsächlichen Risikoverhältnisse zu verstehen.
Andererseits werden oft nur absolute Zahlen angegeben, um Gefahren zu betonen. 8.000 neu an einer Krebsart Erkrankte ist ohne Bezug schwierig zu interpretieren, sind jedoch nur ein Zehntausendstel der deutschen Bevölkerung, sodass hier die Bezugsgröße wesentlich ist.
Ebenso sinnlos sind alleinstehende absolute Zahlen bei der Angabe der Verkehrstoten in einem Bundesland, der durch Haie getöteten Badenden oder der im Haushalt Verunglückten, wenn keine Bezugsgrößen für einen Vergleich vorhanden sind.
Also gilt: Bei der alleinigen Angabe von relativen oder absoluten Zahlen jeweils die entsprechenden fehlenden Angaben suchen, um die Situation vollständig zu erfassen.
Eine (zu) selten berichtete Angabe, die das Verständnis von Therapieeffekten enorm vereinfachen kann, ist die Number Needed to Treat (NNT). Sie sagt aus, wie viele Personen mit einer Intervention behandelt werden müssen, um bei einer Person einen Therapieerfolg zu sehen. Je kleiner die NNT ist, desto besser.
Beispiel: In einer randomisierten kontrollierten Studie wird berichtet, dass schwere postpartale Blutungen seltener bei Frauen auftraten, die intravenöses Oxytocin erhielten, im Vergleich zu einer intramuskulären Verabreichung. Das entsprechende Odds Ratio ist 0,54 (95-Prozent-Konfidenzintervall 0,32 bis 0,91), die NNT ist 29.
Das bedeutet, dass 29 Frauen eine intravenöse Verabreichung von Oxytocin erhalten müssen, damit 1 Frau profitiert. Zwischen den unterschiedlichen Formaten relativer und absoluter Therapieeffekte liefert die NNT eine klar verständliche Aussage.
2. Konfidenzintervall statt p-Wert?
Die Präzision von Ergebnissen wird mit statistischen Methoden berechnet. Das Konfidenzintervall (KI) gibt – leicht vereinfacht – einen Bereich an, in dem man den wahren Effekt mit einer bestimmten Wahrscheinlichkeit, üblicherweise 95 Prozent, erwarten kann.
Konfidenzintervalle sind Signifikanztests (also p-Werten) vorzuziehen, weil sie Richtung und Stärke eines Ergebnisses aufzeigen, zum Beispiel ob und um wie viel eine Intervention wirksamer ist als eine andere. Der p-Wert hingegen gibt nur an, mit welcher Wahrscheinlichkeit der Unterschied zwischen zwei Behandlungen auf den Zufall zurückzuführen ist.
Rückschlüsse vom p-Wert auf die Wirksamkeit oder die klinische Relevanz der Wirksamkeit sind nicht möglich. Ein Beispiel aus der Physicians’ Health Study: Hier wurde unter anderem beobachtet, dass ASS das Risiko für einen Myokardinfarkt statistisch hochsignifikant senkt (p < 0,0001), aber die Risikodifferenz – der Effekt in absoluten Angaben – ist mit 0,77 Prozent sehr gering.
red