Wissenschaftliche Studien: Evidenzgrade und deren Anwendung

1. Einordnen wissenschaftlicher Texte in die Evidenzklassen – Leitfaden

Sich wissenschaftlich/beruflich auf dem Laufenden halten kann man bspw. über Newsletter-Abonnements von Fachzeitschriften oder Online-Portalen. Häufig wird in Artikeln zu neuen Erkenntnissen aus der Wissenschaft eine oder mehrere Studien zitiert, die einen Beleg für die Aussage des Artikels geliefert haben soll. Wie aber erkennt man, ob der Artikel, den man vor sich hat, in seiner Aussage wissenschaftlich fundiert ist?

Denn Studie ist dabei längst nicht gleich Studie. Um ihre Ergebnisse als zuverlässig einstufen zu können, gibt es unterschiedlichste Kriterien, die die Qualität und wissenschaftliche Aussagekraft (Evidenz) der Studie beeinflussen. Ein Merkmal ist zum Beispiel die Anzahl der Studienteilnehmer. Methodisch gute Studien berechnen vorab, wie viele Teilnehmer sie brauchen, um einen bestimmten Aussagewert zu erlangen.

1. Nachfolgend lesen Sie eine Auswahl an Kriterien, die Sie sich beim Lesen eines Artikels bzgl. der zitierten Studie(n) fragen sollten:
  1. Ist die Originalstudie verlinkt worden und abrufbar?
  2. Wenn ja, lohnt sich immer ein Blick auf diese Originalstudie, um ihre Methodik näher betrachten zu können.
  3. Wird die Originalstudie nicht verlinkt, lohnt es sich vielleicht danach zu googlen. Eventuell zitieren auch weitere Artikel die Studie oder die Originalstudie ist andernorts abrufbar.
2. Je häufiger eine Studie zitiert wird und deren Ergebnisse präsentiert werden (vor allem in namhaften Quellen), desto wahrscheinlicher ist es auch, dass deren Aussage evident ist.

Um die Methodik der Originalstudie einschätzen zu können, können unter anderem folgende Fragen von Belang sein:

Was sollte mit der Studie untersucht werden?
Ist die Fragestellung klar formuliert?
Wie viele Patienten wurden in die Studie aufgenommen? Reicht die Anzahl aus, um ein statistisch verlässliches Ergebnis zu erhalten? Oder war die Gruppe so klein, dass Effekte übersehen werden konnten, die nur bei vergleichsweise wenigen Menschen auftauchen?
Umfragen betreffend fällt hier häufig der Begriff „repräsentativ“. Dies ist eben dann der Fall, wenn die Stichprobenart und -größe im Vorfeld über statistische Maße bestimmt wurde.
Bei Interventionsstudien, also solchen, in denen bspw. ein Medikament oder eine App an Studienteilnehmern getestet wird, gilt folgendes: Gab es eine Vergleichsgruppe, die die Intervention bspw. nicht bekommen hat? Als Vergleich dient in solchen Studien zum Beispiel ein „Scheinmedikament“, ein sogenanntes Placebo, oder das Medikament, das bisher als Behandlungsstandard (Goldstandard) gilt.
Waren die Gruppen (Interventions- und Vergleichsgruppe) überhaupt untereinander vergleichbar, was Geschlecht, Alter, Lebensumstände und Krankheitsdaten angeht? Wurden sie nach dem Zufallsprinzip auf Prüf- und Vergleichsgruppe verteilt (=Randomisierung), oder konnten sich Patienten aussuchen, ob sie mit der alten oder der neuen Methode behandelt wurden? Auch so können Unterschiede zustande kommen und die Ergebnisse verzerrt werden.
Wussten die Ärzte oder andere Durchführende, welcher Patient zu welcher Gruppe gehörte? In einer hochwertigen Studie wissen weder Arzt noch Patient, wer welcher Gruppe zugeordnet ist – so können beide nicht einmal unbewusst das Ergebnis beeinflussen. Bei Arzneimittelprüfungen lässt sich diese Vorgabe allerdings wesentlich leichter umsetzen als beispielsweise beim Vergleich von Operationsmethoden oder eben medizinischen Apps und Wearables.
Sind die statistischen Berechnungen der Forscher und die Auswertungen der Untersuchungsergebnisse nachvollziehbar?
War das untersuchte Verfahren oder Medikament also tatsächlich wirksamer als die Behandlung der Vergleichsgruppe? Gab es Nebenwirkungen, die den Nutzen infrage stellen?
Lässt sich die untersuchte Methode auf die breite Patientenversorgung übertragen, ist sie also allgemeingültig? Oder tauchen dann Probleme auf, die man bei der Studiengruppe nicht gesehen hatte?
Ein letzter zuweilen entscheidender Punkt kann auch sein, wie die Studie finanziert wurde. Steckt hinter der Studie bspw. ein Pharmaunternehmen, welches sein Medikament untersucht, ist die Interessenslage eventuell grundlegend anders, als wenn eine unabhängige Forschungseinrichtung selbiges Medikament auf seine Wirksamkeit hin prüft. Auch hier lohnt sich ein Blick, da dieser Information unter „Sponsorship“ oder „conflict of interest“ angegeben werden muss.

Je mehr Kriterien eine Studie erfüllt, desto vertrauenswürdiger ist sie. Diese Kriterien bilden auch die Basis für die folgenden Evidenzklassen.

2. Die Evidenzklassen erklärt – Schritt für Schritt

Die Evidenzklassen geben die methodische Güte wissenschaftlicher Studien wieder. Die Klasse 1a hat dabei die höchste, Klasse 4 die geringste Güte.

Klasse Ia: Evidenz durch Meta-Analysen von mehreren randomisierten, kontrollierten Interventionsstudien

Eine Metaanalyse ist ein statistisches Verfahren, um die Ergebnisse verschiedener (Interventions-)Studien, welche dieselbe Fragestellung in einem wissenschaftlichen Forschungsgebiet verfolgen, quantitativ (ein zusammengefasster statistischer Wert) zusammenzufassen und zu bewerten.

D.h. man bildet einen Durchschnitt der Ergebnisse dieser Studien und erhält, unter anderem bedingt durch die insgesamt höhere Anzahl der Studienteilnehmer, eine höhere statistische Aussagekraft. Die Metaanalyse ist demnach eine Zusammenfassung von Studien der Evidenzklasse Ib.

Beispielbegriffe in Studientiteln: Metaanalyse, systematisches Review, Review

Klasse Ib: Evidenz aufgrund von mindestens einer randomisierten, kontrollierten Studie (RCT)

Die RCT ist das klassische Verfahren für die sog. Interventionsstudien, in denen also eine Intervention (Medikament, Therapieverfahren, Medizin-App, etc.) bspw. gegen eine andere Intervention (z.B. den Goldstandard) oder gegen Placebo getestet wird. Auch Pilotstudien, die durchgeführt werden, um zu testen, ob eine größer angelegte Studie erfolgversprechend ist, können dieses Studiendesign haben.

Kontrolliert:

Es gibt sowohl eine Experimentalgruppe (=Interventionsgruppe) als auch eine Kontrollgruppe (=Vergleichsgruppe).
An den Mitgliedern der Experimentalgruppe wird eine Intervention durchgeführt.
Mitglieder der Kontrollgruppe erhalten Scheintherapie (Placebo), aktuelle Standardtherapie (=Goldstandard) oder können auch unbehandelt bleiben.

Randomisiert:

Die Zuordnung zur Experimental- oder Kontrollgruppe erfolgt zufällig.
Es wird gewährleistet, dass beide Gruppen in ihrer Zusammensetzung zueinander weitgehend äquivalent ist.

Weitere Eigenschaften:

Kontrollierte und randomisierte Studien sind in der Regel doppelt verblindet, d.h. sowohl der Proband selbst als auch der Versuchsleiter wissen nicht, zu welcher Gruppe der Proband gehört.
Auch einfache oder keine Verblindungen sind möglich, haben aber methodische Schwächen, die in der Studie aufgeführt sein sollten.

Begriffe in Studientiteln: (randomised) controlled trial, RCT, Trial, (randomisierte) kontrollierte Studie, Interventionsstudie

Klasse Ic: Evidenz aufgrund von mindestens einer gut angelegten, jedoch nicht randomisierten und kontrollierten Studie

Es gibt keine Kontrollgruppe und somit gibt es auch keine Zuordnung, die zufällig erfolgen könnte.
Die Studie ist jedoch kontrolliert und erfüllt weitere methodische Kriterien.

Begriffe in Studientiteln: controlled trial, Trial, kontrollierte Studie, Interventionsstudie, Pilotstudie

Klasse IIa: Metaanalyse von Kohorten-Studien

Eine Metaanalyse ist ein statistisches Verfahren, um die Ergebnisse verschiedener Studien, welche dieselbe Fragestellung in einem wissenschaftlichen Forschungsgebiet verfolgen, quantitativ zusammenzufassen und zu bewerten.
Entgegen der Metaanalysen von 1a werden hier aber nicht die Ergebnisse von RCTs zusammengefasst, sondern von Kohortenstudien.

Klasse IIb: Kohorten-Studie

Die Kohortenstudie ist eine spezielle Form der Paneluntersuchung (mehrfache Erhebung derselben Variablen (mit der gleichen Operationalisierung) an denselben Untersuchungsobjekten zu verschiedenen Zeitpunkten.
Alle Personen einer Stichprobe gehören derselben Kohorte an.
Kohorte = eine Gruppe von Personen, in deren Lebensläufen ein bestimmtes biographisches Ereignis annähernd zum selben Zeitpunkt aufgetreten ist, d.h. je nach definierendem Merkmal unterscheidet man Geburtskohorten, Einschulungskohorten, Scheidungskohorten und viele andere mehr.
Es werden zwei Formen von Kohortenstudien unterschieden: Intra- und Inter-Kohortenvergleiche.
In Intra-Kohortenvergleichen wird die zeitliche Entwicklung bestimmter Merkmale in einer Kohorte untersucht.
Inter-Kohortenvergleiche vergleichen dagegen Mitglieder verschiedener Kohorten miteinander.

Klasse IIIa: Metaanalysen von Fall-Kontroll-Studien

Eine Metaanalyse ist ein statistisches Verfahren, um die Ergebnisse verschiedener Studien, welche dieselbe Fragestellung in einem wissenschaftlichen Forschungsgebiet verfolgen, quantitativ zusammenzufassen und zu bewerten.
Entgegen der Metaanalysen von Ia werden hier aber nicht die Ergebnisse von RCTs zusammengefasst, sondern von Fall-Kontroll-Studien.

Klasse IIIb: Fall-Kontroll-Studien

Es handelt sich um eine retrospektive (rückblickende) Untersuchung einer Stichprobe, die aus erkrankten Personen besteht (Fallgruppe), im Vergleich mit einer Stichprobe, die aus gesunden Personen besteht (Kontrollgruppe).
Bei beiden Gruppen wird nun ermittelt, ob in der Vergangenheit eine Exposition gegenüber potentiellen Risikofaktoren vorlag, d.h. ob die Personen einem bestimmten Risikofaktor ausgesetzt waren. Ein signifikanter Unterschied zwischen beiden Gruppen bedeutet eine Korrelation (Zusammenhang) zwischen Risikofaktor und Erkrankung.
Durch die rückblickende Erhebung kann man aber keinesfalls auf eine Ursache/ Wirkungsbeziehung (Kausalität) schließen, sondern nur auf die Korrelation.

Begriffe in Studientiteln: case study, Fallstudie, Fall-Kontroll-Studie, FKS, retrospektive Studie

Klasse IV: nicht analytische Studien, Evidenz aufgrund von Berichten der Experten-Ausschüsse oder Expertenmeinungen bzw. klinischer Erfahrung anerkannter Autoritäten.

Dies betrifft bspw. Expertenberichte, die einzelne Experten, aber auch Berichte von Expertenkreisen umfassen können. Sie können rein auf der Erfahrung Einzelner beruhen oder aber in Konsenskonferenzen mehrerer Experten gebildet worden sein.
Auch Einzelfallbeschreibungen durch diese Experten sind hier zu nennen.

Begriffe in Studientiteln: Expertenbericht, Beobachtungsstudie, Fallstudie, Fallbeschreibung

Hier noch einmal alle Evidenzklassen/Evidenzgrade in der Übersicht:

Ia	Meta-Analyse von randomisierten, kontrollierten Interventionsstudien
Ib	Randomisierte, kontrollierte Interventionsstudien
Ic	Nicht randomisierte/nicht-kontrollierte Interventionsstudie
IIa	Meta-Analyse von Kohorten-Studien
IIb	Kohorten-Studien
IIIa	Meta-Analyse von Fall-Kontroll-Studien
IIIb	Kontroll-Studie
IV	Nicht analytische Studien Fallbeschreibungen, Berichte/Meinungen von Expertenkreisen, Konsensuskonferenzen und/oder Erfahrung anerkannter Autoritäten

3. Beispiele

Artikel aus Fachzeitschriften geben oft Informationen aus Studien wieder. Um nun zu erkennen, ob der Artikel wirklich aussagekräftige Studien wieder gibt, sollte man als erstes schauen ob es sich um einen seriösen Herausgeber handelt. Der Artikel sollte neben der Angabe des Autors, auch eine Quellenangabe besitzen. So kann man selbst die zu Grunde liegende Studie auf ihre Vertrauenswürdigkeit überprüfen. Im optimalen Fall, ist die Studie verlinkt und man kann sie als PDF aufrufen. Dann kann man diese nach den oben genannten Kriterien bewerten und einer Evidenzklasse zuordnen. Häufig jedoch ist die Studie nicht kostenfrei einzusehen.

Sollte die Studie, auf die sich der Artikel bezieht, nicht vorhanden sein, so sollte man schon eher kritisch mit den Informationen umgehen und versuchen anhand der Angaben, die im Artikel zu der Studie gegeben werden, sich ein genaueres Bild von der Studie zu machen und die oben genannten Kriterien zuzuordnen.

Nehmen wir als Beispiel einmal diesen Artikel: https://www.aerztezeitung.de/praxis_wirtschaft/w_specials/gesundheitsapps2011/article/964948/sturm-wasserglas-gesundheits-apps-machen-nicht-schlau.html?sh=10&h=-1989224581

Als erstes fällt an dem Artikel auf, dass die Überschrift: „Gesundheits-Apps machen nicht schlau“ sehr absolut klingt und dazu verleiten soll, den Artikel zu lesen. Der Name des Autors ist vorhanden und auch das Datum der Veröffentlichung steht dabei. Liest man sich den Artikel jetzt allerdings genauer durch, dann stellt man fest, dass die Studie, auf der der Artikel und vor allem die Überschrift aufbauen, nicht repräsentativ in ihrer Befragungsmethodik ist. Das gibt der Artikel allerdings auch selbst an, indem geschrieben wird: „Das Sample ist nicht repräsentativ: 58 Prozent der Befragten sind Frauen. Zudem ist die Gruppe der 18- bis 28-jährigen mit 45 Prozent überrepräsentiert, die über 55-jährigen stellen nur 19 Prozent der Befragten.“ Sample bedeutet an dieser Stelle die Stichprobenauswahl der Befragten. Zu der Studie gibt es keine Quellenangabe. In dem Artikel wird noch auf eine weitere Studie verwiesen. Diese ist mittels Link hinterlegt und kann somit auch separat betrachtet werden. Sie ist repräsentativ, beschäftigt sich allerdings nur mit der Gesundheitskompetenz verschiedener sozialer Schichten in Deutschland und nicht mit dem Zusammenhang zwischen Gesundheits-Apps und Gesundheitskompetenz. Somit wird deutlich, dass man sich nicht sofort von der Überschrift überrumpeln lassen sollte und die Inhalte des Artikels auf den Beleg für diese Überschrift prüfen sollte.

4. Wo finden Sie die Originalstudien?

Am besten lassen sich medizinische und gesundheitsbezogene Studien in der nationalen medizinischen Bibliothek der Vereinigten Staaten (National Library of Medicine, NLM) finden, welche über die Meta-Datenbank PubMed (https://www.ncbi.nlm.nih.gov/pubmed/) erreichbar ist. Diese ist englischsprachig und bildet den Großteil aller international publizierten Studien im Gesundheits- und Medizinsektor ab. Es ist bei jeder Studie ersichtlich, ob und wie der jeweilige Volltext kostenfrei zugänglich ist. Sollten Volltexte kostenpflichtig sein, sind deren Zugangsmodalitäten aufgeführt. Einen Abstract (Zusammenfassung) der Studie kann man in den allermeisten Fällen kostenfrei lesen. Auch dieser bietet häufig ausreichend Hinweise auf die Methodik der Studie.

Auch das einfache Googlen der Studie sollte natürlich nicht unterschlagen werden. So lässt sich bspw. schnell finden, ob die Studie schon andernorts zitiert wurde. Unter Umständen findet man auch den Volltext auf diesem Wege.

5. Zusammenfassung – Was sollten Sie für sich mitnehmen?

1. Seien Sie kritisch im Umgang mit (Online-)Zeitschriften-, Blog- oder sonstigen Artikeln.
2. Vertrauen Sie nicht blind auf die Aussage zitierter Studien.
3. Versuchen Sie näheres über die Methodik zitierter Studien zu erfahren.
4. Überprüfen Sie u.U., ob die Studie bereits andernorts zitiert wurde.
5. Versuchen Sie die Originalstudie ausfindig zu machen (bspw. über PubMed) und lesen Sie dort genauer nach, wie vorgegangen wurde. Im Optimalfall ist die entsprechende Studie bereits im Artikel verlinkt oder zumindest präzise zitiert worden.

Quellen

Ärzte Zeitung, Florian Staeck (Hrsg.) (30.05.2018) Gesundheits-Apps machen nicht schlau. Internet: https://www.aerztezeitung.de/praxis_wirtschaft/w_specials/gesundheitsapps2011/article/964948/sturm-wasserglas-gesundheits-apps-machen-nicht-schlau.html?sh=10&h=-1989224581
gkfz (Deutsches Krebsforschungszentrum) (Hrsg.) (2018) Evidenzbasierte Medizin und Leitlinien. Internet: https://www.krebsinformationsdienst.de/grundlagen/ebm-leitlinien.php
Doc Check Flexikon (Hrsg.) (gesehen: 04.06.2018) Evidenzklasse. Internet: https://flexikon.doccheck.com/de/Evidenzklasse
Horten-Zentrum für praxisorientierte Forschung und Wissenstransfer (Hrsg.) (gesehen: 04.06.2018) Glossar. Internet: http://www.evimed.ch/glossar/definition/fall-kontroll-studie/