Vor zwei Jahren erschien im Fachblatt "The Lancet" eine Artikelserie mit der Überschrift: "Increasing value, reducing waste". Wenn ein angesehenes Medizinjournal mit dem Begriff "Müll" titelt, dann weist das auf eine gewisse Unzufriedenheit mit der gängigen Publikationspraxis hin.
In der Tat haben Forscher in den letzten Jahren die Qualität von Studien immer wieder bemängelt. John Ioannidis von der Stanford University ist einer davon: Er hat in den Fächern Psychologie, Medizin und Biologie schon vor Jahren eine "reproduction crisis" diagnostiziert. Viele Studienergebnisse sind ihm zufolge Eintagsfliegen, nicht reproduzierbar - und somit mehr oder minder wertlos.
2005 kam er etwa in einer Analyse zu folgendem Ergebnis: Je "heißer" ein Forschungsgebiet und je mehr Geld im Spiel ist, desto geringer die Wahrscheinlichkeit, dass man den Ergebnissen trauen kann. Insgesamt sei etwa die Hälfte aller Studien mangelhaft, vor allem in statistischer Hinsicht.
Ein Fach feiert sich selbst
Derlei Unkenrufen zum Trotz gibt es auch optimistische Wortmeldungen zu diesem Thema. Erst gestern veröffentlichten Forscher im Fachjournal "Science" eine Überprüfung von 18 Studien aus dem Bereich der experimentellen Ökonomie. Fazit: Die Ergebnisse konnten in 61 Prozent der Fälle wiederholt werden.
Die Autoren werten das als eindrücklichen Qualitätsbeweis für ihr Fach. So hoch sei der Wert in anderen Disziplinen nicht, betont etwa der Innsbrucker Psychologe Jürgen Huber, einer der Studienautoren. Ein Blick in die Literatur zeigt, dass die Werte in benachbarten Fächern tatsächlich niedriger liegen. In der Makroökonomie etwa sind es nur 13 bis 23 Prozent.
Ähnlich mager sehe es in der Psychologie und Biomedizin aus, sagt Gerhard Fröhlich. Der Linzer Wissenschaftsforscher hegt aber Zweifel, ob die Analyse in "Science" wirklich aussagekräftig ist: "Ich habe den Eindruck, dass sich die Autoren nur die statistischen Rosinen herausgepickt haben - sie haben nämlich nur ein ausgewähltes Ergebnis pro Arbeit überprüft. Davon abgesehen sind 18 Studien nicht gerade berauschend: Eine gute Analyse dieser Art sollte wesentlich mehr Fälle umfassen."
Die unterschiedlichen Lesarten von Huber und Fröhlich kann man durchaus als pars pro toto für die gesamte Debatte nehmen: Wo für die einen das Glas halb (oder zu 61 Prozent) voll ist, bleibt es für andere halb leer. Erfolgsmeldungen treffen auf Kritik - und die Kritik wird nicht selten wieder kritisiert.
Hickhack zwischen Experten
So geschehen etwa bei zwei Artikeln, die ebenfalls in der aktuellen Ausgabe von "Science" erschienen sind. Die Vorgeschichte: Letztes Jahr stellte der amerikanische Psychologe Brian Nosek seinen Fachkollegen ein denkbar schlechtes Zeugnis aus. Zwei von drei psychologischen Studien liefern ihm zufolge fragwürdige Ergebnisse.
So hieß es etwa, Frauen würden an ihren fruchtbaren Tagen alleinstehende Männer bevorzugen. Stimmt nicht, sagt Nosek. Das Ergebnis lasse sich nicht reproduzieren. Nicht nur in diesem Fall: Insgesamt 100 Studien hat der amerikanische Psychologe mit seinem Team von 270 Forschern nochmals durchgeführt. Bei 39 waren die Ergebnisse die gleichen, der Rest hielt der Überprüfung nicht stand.
Diesem Urteil widersprechen nun Forscher um den Harvard-Psychologen Daniel Gilbert. Nosek habe bei seiner Auswertung selbst geschludert und statistische Verzerrungen in die Analyse getragen, wo im Original keine waren, lautet einer der Vorwürfe. "Meta-Wissenschaft hat keinen Freibrief", sagt Gilbert. "Sie muss sich selbst an die Regel der Wissenschaft halten." Nosek bekam in "Science" auch Raum für eine Replik. Und lässt darin - wenig überraschend - die Einwände nicht gelten. Er bleibe bei seiner Kritik, schreibt Nosek.
"Kontroversen sind gut"
Nachlese
Gerhard Fröhlich: "Kontrolle durch Konkurrenz und Kritik? Der öffentliche und soziale Charakter der wissenschaftlichen Methoden"
Wenn sich selbst ausgewiesene Experten über die Qualität statistischer Methoden nicht einigen können: Wie kann man da noch gute von schlechter Wissenschaft unterscheiden? Verschwimmt da nicht alles im methodologischen Relativismus?
Dass es Uneinigkeit zwischen Forschern gebe, sei an sich nichts Schlechtes, sagt Gerhard Fröhlich. "Wenn man das nicht ertragen kann, hat man in der Wissenschaft nichts verloren. Kontroversen sind business as usual, bei mir würden eher die Alarmglocken läuten, wenn alle dasselbe glauben."
Gleichwohl gibt es in der Forschung auch einige Tendenzen, die der wissenschaftlichen Streitkultur schaden: Forscher neigen dazu ihre Ergebnisse schönzureden, weil sie im medialen Getöse ansonsten kaum Gehör finden. Und sie tun das auch, weil sie für die Finanzierung weiterer Projekte Etappenerfolge vorweisen müssen.
Die französische Wissenschaftsforscherin Isabelle Boutron hat etwa herausgefunden, dass entweder die Forscher selbst oder die PR-Abteilungen der Universitäten bei der Zusammenfassung der Ergebnisse systematisch übertreiben. Die Rohdaten sprechen oft eine andere Sprache.
Selbst die Statistik ist, wie Fröhlich hinweist, obzwar exakt, nicht ganz frei von subjektiven Vorlieben. "Die Statistik ist kein Waschprogramm, bei dem am Ende garantiert weiße Wäsche rauskommt. Es gibt unendlich viele Verfahren, die alle ihre Vor- und Nachteile haben, irgendetwas begünstigen oder in den Hintergrund rücken. Und Experten können auf dieser Klaviatur spielen wie ich (früher) Klavier."
Fehlalarm im Kosmos
Von dieser Debatte kaum betroffen zu sein scheinen indes die beiden "harten" Disziplinen der Naturwissenschaft, nämlich die Chemie und die Physik. Zum einen, weil es in diesen Fächern kaum Untersuchungen über die Reproduzierbarkeit von Studien gibt. Zum anderen wohl auch, weil unabhängige Wiederholungen mitunter prinzipiell nicht möglich sind.
Der große Teilchenbeschleuniger des CERN etwa existiert eben nur einmal auf dieser Welt. Und auch der kürzlich gelungene direkte Nachweis von Gravitationswellen mit Hilfe der LIGO-Detektoren in den USA wird so schnell nicht mit anderen Geräten gelingen. Dennoch kämen die wenigsten auf die Idee, die Nachweise von Higgs-Teilchen und Gravitationswellen als Eintagsfliegen abzutun - und an der Existenz der physikalischen Phänomene zu zweifeln.
Vereinzelte Kritik gibt es dennoch. Der schwedische Astrophysiker Jan Conrad beklagte kürzlich in einem "Nature"-Kommentar, sein Fachgebiet sei mittlerweile von der im Wissenschaftsbetrieb grassierenden Hektik erfasst worden. Hinweise auf neue Entdeckungen würden oft viel zu früh hinausposaunt.
Das kann gut gehen und den beteiligten Forschern die Priorität für die Entdeckung sichern. Das kann aber auch peinlich werden - dann nämlich, wenn sich die vermeintliche Entdeckung wieder in Luft auflöst. Das ist in den letzten Jahren mehrfach passiert. Überlichtschnelle Neutrinos und ein "Echo" der kosmischen Inflation zählen zu den prominenten Beispielen von Sensationen im Fach Physik, die bei genauerer Kontrolle wieder abgesagt werden mussten.
Nicht besonders gut sieht es auch für die Entdeckung von Gammastrahlung in einer Zwerggalaxie aus, die laut einer Studie aus dem letzten Jahr von Dunkler Materie stammen könnte. Neuauswertungen der Daten zeigen: Nach einem Update der Analysesoftware verschwindet das Signal im statistischen Rauschen.
Robert Czepel, science.ORF.at
Mehr zu diesem Thema: