Evidenz wirkt leider schwächer als eine gute Geschichte. Lernen Sie, Publikationen einzuschätzen und so Wissenschaft und Glaube auseinanderzuhalten.
Ratschläge zur Ernährung widersprechen einander oft. Es existieren zu viele gegensätzliche Behauptungen, zu viele Interessen, zu viel Verwirrung. Dieser Widerspruch ist kein Zufall. Er ist das direkte Ergebnis des Systems. Finanzielle Interessen, Karrieredruck und mediale Aufmerksamkeit wirken mächtiger als reine Wahrheitssuche. Um hier zu bestehen, braucht es kein medizinisches Studium, sondern praxistaugliche Aufklärung für kritische LeserInnen.
Warum ist solide Aufklärung nötig?
Weil starke Geschichten, Einzelbeispiele und Marketing lauter sprechen als Daten. Bücher und Beiträge sammeln mitunter Erfahrungen oder lose Fakten. Es fehlen robuste Belege. Selbst umfangreiche Texte mit vielen Studien vermitteln leicht ein verzerrtes Bild. Das passiert, indem sie Studiendesigns vermischen, Surrogatmarker überbewerten oder gegensätzliche Resultate ausblenden.1,2
Durchdachte Kritik an der Ernährungsforschung passiert also auf zwei verschiedenen Ebenen: Sie durchleuchtet die wissenschaftliche Praxis, aber auch die Präsentation der Resultate durch die Medien. Wenn die wissenschaftliche Basis fragil ist, hat das direkte Konsequenzen für die öffentliche Wahrnehmung. Dieser Unsicherheit setzen wir ein klares Handwerkzeug entgegen.
Was ist dieses "Handwerkzeug"?
Es beginnt mit der einfachen Frage: Existiert "vollständige Evidenz"? Die Antwort entlarvt die häufigsten Trixereien: Nein. Evidenz ist nie vollständig. Sie ist immer ein vorläufiges Abbild der aktuellen Datenlage. Wer "vollständige Beweise" fordert, um einfache Wahrheiten zu diskreditieren, missbraucht die Wissenschaft als Totschlagargument.
Warum ist dieses Handwerkzeug nötig?
Weil das System der Evidenzproduktion krank ist. Forscher wie John Ioannidis von der Stanford University belegen: Finanzielle Interessen und Karrieredruck verformen die Wissenschaft systematisch. In der Forschung dominieren Studien zu teuren, vermarktbaren Produkten. Einfache, wirksame Lebensstil-Interventionen bleiben dagegen oft im Evidenz-Schatten. Das hat System.
Wir schreiben für alle, die Evidenzfragen verfolgen oder selbst evidenzbasiert arbeiten. Evidenz bedeutet Beweisbarkeit: Sie beschreibt, wie gut ein Zusammenhang durch überprüfbare Daten gestützt ist. In Medizin und Wissenschaft beruht dieser Begriff auf systematisch erhobenen und nachvollziehbaren Ergebnissen.
Die moderne Bedeutung weicht deutlich vom philosophischen Ursprung ab. Damals stand evidentia für Ersichtlichkeit, Eindeutigkeit, Klarheit – abgeleitet vom lat. Adjektiv evidens (klar ersichtlich, sichtbar, augenscheinlich). Dahinter versteckt sich das Verb videre (sehen). Also: Eine Einsicht ohne Beobachtung oder Messung. Heute steht evidence im englischen Sinn für "Beweis" oder "Nachweis". Dieser Gebrauch ist auch im Deutschen etabliert. Dies primär in der evidenzbasierten Medizin (EbM). Unsere Beispiele stammen ausschliesslich aus Ernährung und Medizin. Das hilft jedem Menschen, auch wenn er nicht primär an Evidenz interessiert ist.
Die folgenden Ausführungen beschreiben das Thema für einige Menschen zu konzentriert. Schliesslich streben wir an, Sie umfassend zu informieren und diese systemischen Verzerrungen schonungslos aufzudecken. Weniger komplizierte Informationen zur Interpretation von statistischen Resultaten finden Sie im Beitrag Wissenschaftliche Publikationen einschätzen.
Fakt ist: Forschungsprojekte kosten viel und finanzstarke Akteure kämpfen um Schlagzeilen und Marktanteile. Gezieltes Design lässt ungesunde Produkte in Studien harmlos oder gar gesund erscheinen. Positive Ergebnisse dominieren, während kritische Befunde in den Hintergrund treten.
Besonders in der Ernährungsforschung führen solche Interessen zu widersprüchlichen Resultaten. Studien, die eine ausgewogene Ernährung überzeugend belegen, bleiben selten. Kaum jemand investiert in Forschung ohne direkten Profit.
Unsere Gegenmittel gegen solche Verzerrungen heissen Transparenz und Gewichtung. Planung und Durchführung bestimmen die Aussagekraft einer Studie weit stärker als ihr formaler Typ. Transparenz verwandelt widersprüchliche Resultate in ein nachvollziehbares Gesamtbild.3
Wie der Text aufgebaut ist:
Er startet mit der Frage, warum Wissen oft widersprüchlich wirkt. Aber auch, welche Effekte das Resultat verzerren und was das mit dem System der Forschung zu tun hat. Dann folgen die Grundlagen: wie Studien entstehen und wie ihre Aussagekraft zu beurteilen ist. Darauf aufbauend erklärt der Text, wie theoretische Evidenz praktische Urteilsfähigkeit formt. Am Schluss steht die Verantwortung, mit Wissen bewusst umzugehen. Das jenseits von Dogma oder Meinung. Konkret bedeutet das: von System → Methode → Praxis → Kommunikation → Haltung.
Nutzen Sie das Inhaltsverzeichnis für einen raschen Überblick. Abhängig von Ihrer Einstellung erscheint es als Click-For, bitte öffnen. Es legt die behandelten Themen und ihre Zusammenhänge klar offen.
In diesem Text lernen Sie:
Systemische Verzerrungen (Bias) zu identifizieren: Wie methodische Probleme und finanzielle Interessen Ergebnisse verzerren. Und wie Sie diese Biases erkennen.
Die Sprache der Evidenz zu verstehen: Wie Sie mit drei Evidenz-Kategorien die Stärke einer Studie schnell einordnen.
Konkrete Prüfwerkzeuge anzuwenden: Wie Sie mit einer einfachen 6-Punkte-Checkliste jede Studie auf Herz und Nieren prüfen.
Kritisch mit Grossstudien umzugehen: Wie Sie auch vermeintlich "gesicherte" Grundlagen der öffentlichen Debatte hinterfragen.
Sich belastbares Wissen für die Praxis anzueignen: Wie Sie in Kenntnis der Widersprüche die wichtigen Zusammenhänge erkennen und verantwortungsvolle Entscheidungen für Ihr Leben treffen.
Auf diese Weise trainieren Sie, systemische Verzerrungen zu erkennen. Das erlaubt Ihnen fundierte Urteile im Rahmen einer erweiterten Perspektive, der sogenannten Gesamtevidenz. Diese berücksichtigt die Gesamtheit an Erkenntnissen, die in Beurteilungen einfliessen. Sie anerkennt Widersprüche, aber scheitert nicht daran.
Der nächste Teil legt dar, warum das nötig ist – und wie leicht Interessen Evidenz im Alltag verschleiern.
Wer die eigene Gesundheit oder die der Familie aktiv schützt, steht einem Dschungel aus Versprechen gegenüber. Extreme wie Low Carb oder Rohkost klingen auf den ersten Blick plausibel. Studienresultate stehen im Widerspruch. Empfehlungen gehen weit auseinander. Anekdoten und selektive Fakten verstärken die Verwirrung. Medien, Werbung und Bestseller befeuern das. Je weniger Sie prüfen, desto leichter gewinnt das Marketing an Einfluss und desto nachhaltiger wirken einfache Geschichten.
Wir alle nehmen Aussagen leichter an, wenn sie unsere eigene Meinung oder die gängige Sicht bestätigen. Widersprüche wirken schnell störend oder gar verstörend. Viele Bücher oder Sachbeiträge umgehen das, indem sie persönliche Erlebnisse erzählen oder Fakten anhäufen. Meist erfolgt das ohne Belege mit hoher Evidenz, denn oberflächlich plausible Texte erlauben beliebige Interpretationen. Bei einseitiger Auswahl bilden umfangreiche Werke mit vielen Studien ebenfalls ein verzerrtes Bild.
Theoretisch entsteht Wissen via Erklärung biologischer Mechanismen und deren Absicherung durch stark evidenzbasierte Studien. Ausschlaggebend bleiben dabei Angaben zur Art, Dauer und Grösse einer Studie.
Evidenz offenbart, ob eine Aussage trägt. So liefern Studien Antworten, die über Meinungen hinausgehen. Sie erlauben es, Hypothesen zu prüfen, Irrtümer zu korrigieren und Wissen zu verdichten.
Gleichzeitig mindern viele Faktoren die Tragfähigkeit: Studiendesign, statistische Auswertung, Veröffentlichungspraxis, wirtschaftliche Interessen. Selbst die beste Forschung kennt Widersprüche.
Diesen Widersprüchen liegen konkrete, systematische Muster zugrunde. Sie bilden methodische Schwachstellen und gezielte Hebel. Diese Biases verzerren die Evidenzproduktion systematisch. Wer sie erkennt, durchschaut das Spiel.
Dadurch entsteht ein Alltag voller Ambivalenz. Folglich erfordern Empfehlungen situatives Abwägen und einen kritischen Gesamtblick. Wer die Mechanismen kennt, versteht: Evidenz ist kein Block aus Stein, sondern ein Prozess. Nicht nur das stärkste Studienergebnis zählt, sondern das ausgewogene Zusammenspiel aller Erkenntnisquellen.
Evidenz gilt also immer vorläufig, steht immer im Zwielicht.
In den nachfolgenden Kapiteln erfahren Sie, welche Faktoren für die Evidenzbewertung eine zentrale Rolle spielen. Die verschiedenen thematischen Exkurse fassen wir dann unter 6 Evidenz richtig einordnen zusammen.
Statistik verleiht Ergebnissen Gewicht. Zahlen wirken neutral und exakt. Ihre Aussagekraft hängt allerdings von der Methode ab. Entscheidend ist, welche Daten Forschende sammeln. Ebenso relevant ist, wie sie Gruppen bilden. Auch die Wahl der Kennzahlen beeinflusst, wie stark der Effekt erscheint: Kennzahlen sind zusammenfassende Masszahlen zum Vergleich und zur Interpretation von Daten. Je nachdem, wie Forschende ihre Schwerpunkte setzen, verändert dies die Wahrnehmung eines Ergebnisses.
Selbst grosse Studien bleiben anfällig. Falsch gesetzte Endpunkte erzeugen scheinbar klare Ergebnisse. Selektive Auswertungen verstärken diesen Eindruck. In Wahrheit bleiben solche Resultate fragil. Kleine Unterschiede verändern das Resultat. Vielleicht kennen Sie den Spruch: Traue keiner Statistik, die du nicht selbst gefälscht hast. Er bringt die verbreitete Skepsis gegenüber statistischen Ergebnissen pointiert zum Ausdruck.
Statistik umfasst unterschiedliche Ebenen, die oft durcheinander geraten. Die deskriptive Statistik beschreibt Daten anhand von Kennzahlen wie Mittelwert, Median oder Varianz. Die explorative Statistik sucht in diesen Daten nach Mustern und möglichen Zusammenhängen. Sie dient der Hypothesengenerierung.
Die Inferenzstatistik (induktive oder schliessende Statistik) überträgt begrenzte Datenmengen systematisch auf grössere Zusammenhänge. Sie zeigt Unsicherheiten auf. Hier kommen unterschiedliche Arten von Kennzahlen zum Einsatz. Sie wirken im Rahmen eines Hypothesentests zusammen.
Teststatistiken, wie z.B. t-Wert, F-Wert oder χ²-Wert, entstehen direkt aus den Daten. Sie bilden die Grundlage für den Vergleich mit einer theoretischen Verteilung.
Signifikanzmasse wie der p-Wert leiten sich aus diesen Teststatistiken ab. Sie geben an, wie gut die Daten mit der Nullhypothese vereinbar sind (Ist der Effekt auffällig?). Schätzgrössen wie Effektstärken beschreiben die Grösse eines Effekts (Wie stark fällt die Veränderung aus?). Unsicherheitsmasse wie Konfidenzintervalle geben die Präzision dieser Schätzungen an (Wie präzis kennen wir diese Grösse?).
Die Verlässlichkeit statistischer Ergebnisse hängt von mehreren Faktoren ab:
Exposition: Messung der Einwirkungen und Störfaktoren (Confounder), denen Personen oder Tiere ausgesetzt sind. Beispiele sind Rauchen, Ernährung oder Luftverschmutzung. Eine klar definierte Exposition stärkt die statistische Analyse. Täglich 20 Zigaretten ist präzise. Manchmal rauchen bleibt unscharf. Ungenaue Angaben schwächen die Aussagekraft. Statistische Adjustierungen, etwa multivariate Modelle, reduzieren Verzerrungen. Eine präzise Messung der Exposition ersetzen sie nicht.
Intervention: Klar definierte Massnahme. Beispiele sind die Verabreichung eines Medikaments, die Einführung einer festgelegten Diät oder eines Trainingsprogramms. Eine kontrollierte Intervention erhöht die Belastbarkeit der Ergebnisse. Alle Teilnehmenden erhalten dabei dieselbe Dosis oder dasselbe Programm.
Effekte: Beobachtete Wirkungen. Häufig angegeben als Surrogatmarker (Indikatoren für den Effekt einer Behandlung). Beispiele sind LDL-Cholesterinwerte oder Blutdruck. Grosse Effekte lassen sich statistisch einfacher nachweisen. Zufallseinflüsse spielen dann eine geringere Rolle. Kleine Effektunterschiede erfordern grössere Stichproben. Sie verlangen zudem eine besonders sorgfältige Interpretation.
Stichprobengrösse: Zu kleine Studien liefern oft keine belastbaren Ergebnisse. Das gilt auch dann, wenn ein Effekt existiert. Grosse Studien zeigen dagegen selbst kleine Unterschiede als statistisch signifikant. Diese Unterschiede bleiben häufig klinisch irrelevant.
Randomisierung: Zufällige Zuteilung der Teilnehmenden zu Gruppen, etwa Medikament oder Placebo. Die Verteilung bekannter Störfaktoren gleicht sich an. Unbekannte Störfaktoren verteilen sich ebenfalls besser. Die statistische Auswertung gewinnt an Robustheit. Randomisierung reduziert zudem Bias.
Eine robuste Statistik entsteht nur, wenn oben genannte Elemente klar definiert und methodisch sauber umgesetzt sind.
Statistische Robustheit hängt von klar definierten Expositionen und Interventionen ab. Ausreichend grosse Effekte und Stichproben erhöhen die Aussagekraft zusätzlich. Randomisierung stärkt die Verlässlichkeit weiter. Diese Voraussetzungen liegen häufig bei randomisierten kontrollierten Studien (RCTs) sowie bei Tier- und Laborstudien vor. Zahlreiche Störfaktoren, fehlende kontrollierte Interventionen und kleine Effekte schwächen dagegen die statistische Aussagekraft. Komplexe Modelle verstärken dieses Problem. Das gilt besonders für beobachtende epidemiologische Studien, etwa Kohortenstudien.
Jedoch bildet statistische Robustheit nur einen Teil der Evidenzbewertung. Beispielsweise liefern Tier- und In-vitro-Studien oft robuste statistische Resultate. Ihr Beitrag bleibt jedoch auf mechanistische Hinweise beschränkt. Die direkte Evidenz für den Menschen ist gering. Kohortenstudien liefern diese Evidenz trotz eines erhöhten Risikos für Confounding. Randomisierte kontrollierte Studien verbinden robuste Statistik mit kontrollierter Intervention. Deshalb gelten sie als Goldstandard. Die verschiedenen Evidenzstufen finden Sie weiter unten erklärt.
Ohne Reproduzierbarkeit gelten statistische Ergebnisse nicht als solide. Reproduzierbarkeit bedeutet: Eine Analyse liefert mit denselben Daten und denselben Methoden dasselbe Ergebnis.94 Sind Daten und Methoden nachvollziehbar dokumentiert, lässt sich die statistische Auswertung sinnvoll beurteilen.
Für die Beurteilung von Resultaten stehen verschiedene Kennzahlen zur Verfügung. Eine zentrale Rolle in der Inferenzstatistik spielt der p-Wert als Mass der statistischen Signifikanz. Er unterstützt die Einordnung von Ergebnissen unter definierten Annahmen. Ergänzend kommen weitere Verfahren zum Einsatz, etwa der F-Test, der ein Varianzverhältnis als Teststatistik nutzt.
Allerdings setzt dies offene Daten, transparente Methoden und vollständige Dokumentation voraus. Ohne diese Garantie sind selbst korrekt berechnete p-Werte oder Konfidenzintervalle nicht belastbar. Das bedeutet: Ergebnisse sind anfällig für Fehler oder Manipulation.
Statistische Signifikanz: Sie beschreibt, wie ungewöhnlich ein beobachtetes Ergebnis unter der Annahme der Nullhypothese ausfällt. Ein unter der Nullhypothese unwahrscheinliches Ergebnis gilt als Hinweis auf einen möglichen Effekt. Ein Beweis folgt daraus nicht.
Der p-Wert quantifiziert diese Ungewöhnlichkeit. Er beschreibt die Übereinstimmung der Daten mit der Nullhypothese. Konkret gibt er an, wie wahrscheinlich das beobachtete Ergebnis oder ein extremeres unter dieser Annahme ist.
Was ein p-Wert aussagt: Ein kleiner p-Wert signalisiert ein seltenes Ergebnis unter der Nullhypothese. Er widerlegt diese Annahme nicht. Auch die sichere Existenz eines Effekts folgt daraus nicht. Der p-Wert beschreibt ausschliesslich die Passung der Daten zur Annahme.
Häufige Fehlinterpretationen: Sir Ronald Aylmer Fisher verstand den p-Wert als graduelles Mass der Evidenz. Er diente ihm als grober Filter zu Beginn einer Analyse. Eine feste Signifikanzschwelle sah er nicht vor. Spätere Anwendungen setzten den p-Wert als starres Entscheidungskriterium ein. John Ioannidis (2005) sowie Ronald Wasserstein & Nicole Lazar (2016) kritisieren diese spätere Praxis ausdrücklich. Der p-Wert beschreibt Zufälligkeit, nicht Wahrheit. Wiederholtes Testen kleiner Stichproben erhöht die Chance zufälliger Signifikanz. Dieses Vorgehen gilt als p-Hacking.50,51
Fazit
Der p-Wert gilt in der Statistik als Hinweis auf mögliche Effekte. Im Idealfall entsteht eine Kombination aus kleinem p-Wert und grosser Effektstärke. Dann ist das Resultat statistisch robust und praktisch bedeutsam (Relevanz).
Die eigentliche Beweiskraft entsteht durch eine Belastungsprobe: zuerst in Form einer Reproduktion und anschliessend durch Replikation.94 Replikation bestätigt einen Befund nicht über identische Zahlen. Entscheidend sind die Richtung des Effekts und die daraus gezogene Schlussfolgerung (siehe Teil Replikation – das Rückgrat der Evidenz). Konfidenzintervalle geben den Bereich vereinbarer Effektgrössen an. Sie erlauben den Vergleich zwischen Studien. So lässt sich prüfen, ob Ergebnisse kompatibel sind. Besonders heikel ist der p-Wert bei beobachtenden Studien. Unklare Daten zu Exposition, Intervention und Effekten verstärken dieses Problem. Das betrifft vorwiegend epidemiologische Kohortenstudien.
Zahlen suggerieren Präzision. Dieser Eindruck täuscht. Ein signifikanter p-Wert belegt keinen Zusammenhang. Er schliesst Zufall lediglich als alleinige Erklärung aus. Korrelation beschreibt gemeinsames Auftreten, nicht Ursache und Wirkung.
Ein einzelner signifikanter p-Wert genügt nicht. Belastbare Evidenz erfordert eine klare Fragestellung, ausreichend grosse Effekte und konsistente Resultate bei Wiederholung. Konfidenzintervalle geben den Bereich plausibler Effektgrössen an.
Transparenz ist Voraussetzung für verlässliche Statistik. Ohne Offenlegung von Daten, Methoden und Unsicherheiten bleibt Manipulation möglich. Statistik liefert Wahrscheinlichkeiten, keine Beweise.
Peer-Review gilt als Gütesiegel wissenschaftlicher Qualität. Fachleute prüfen vor der Veröffentlichung, ob eine Studie nachvollziehbar ist. In der Theorie stärkt das die Qualität. Die Praxis zeichnet ein anderes Bild: Persönliche Netzwerke, wirtschaftliche Interessen oder Rivalitäten beeinflussen das Urteil. Gutachter prüfen meist anonym und unaufgefordert, oft unter Zeitdruck und mit Interessenkonflikten.
Weder garantiert ein Peer-Review die Überprüfung der Rohdaten noch sichert es Reproduzierbarkeit (same data, same analysis). Es ersetzt auch keine Replikation (new data, same question). Replikation ist notwendig, um festzustellen, ob ein Ergebnis robust und belastbar ist. Ein veröffentlichter Artikel bedeutet: Keine offensichtlichen Mängel gefunden – nicht: Es stimmt.94 Siehe dazu im Teil Replikation - das Rückgrat der Evidenz.
Gutachter entscheiden über Veröffentlichung oder Ablehnung. Sie folgen leider selten klaren Kriterien. Studien, die bestehende Meinungen bestätigen, haben höhere Chancen als solche, die sie infrage stellen. So entsteht ein System, das Konformität belohnt und Innovation bremst. Kritische Stimmen gelangen schwerer in renommierte Zeitschriften. Peer-Review schützt vor manchem Irrtum – schafft jedoch keine Garantie dagegen. Es gibt immer auch Fälle von zurückgezogenen Artikeln, bei denen erst nach der Publikation kritische Fehler auffielen.
Trotzdem gilt der Stempel "peer-reviewed" als Ausweis für Qualität. Wer wissenschaftliche Qualität beurteilen will, muss die Grenzen dieser Prüfung kennen: Sie ist Kontrolle – nicht Beweis der Wahrheit.
Open Science ist ein Ökosystem aus Forschenden, Institutionen, Förderorganisationen, Verlagen, Bibliotheken, Datenplattformen und politischen Akteuren. Es verspricht mehr Transparenz, indem Daten, Methoden und Ergebnisse frei zugänglich bleiben. Die Methode erlaubt unabhängige Überprüfung und Reproduktion sowie Replikation von Ergebnissen in neuen Datensätzen.
Publikationen auf PubMed Central (PMC) gelten als Teil von Open Science. Denn seit 2008 verlangt die Forschungsförderagentur NIH (National Institutes of Health) Hinterlegung von allen durch sie geförderten Forschungsartikeln auf PMC. Das innerhalb von 12 Monaten nach Veröffentlichung. PMC ist also ein offenes digitales Archiv, betrieben von der National Library of Medicine (NLM) im Auftrag der NIH.
Open Science weist den Weg zu mehr Vertrauen. Offene Wissenschaft steht für eine Kultur der Verantwortung. Sie verlangt Sichtbarkeit der Fehler. Auch dass jede Behauptung durch überprüfbare Daten gestützt ist. Wissenschaft lebt von der Selbstkorrektur – der Grundstein für vertrauenswürdige Arbeit.
Die Realität sieht oft anders aus. Wirtschaftliche Interessen, Patente oder Prestige verhindern offene Daten. Analytische Nachprüfbarkeit (Reproduzierbarkeit) und unabhängige Wiederholungen (Replikationen) gelten als wenig attraktiv und erhalten kaum Förderung. Ohne Nachprüfbarkeit bleibt Evidenz anfällig.
Fazit
Offenheit allein genügt nicht. Selbst dort, wo Daten frei verfügbar sind, verformen Interessen und Methoden den Blick auf die Wirklichkeit. Evidenz entsteht nicht durch einzelne Studien, statistische Signifikanz oder Peer-Review. Sie entsteht vielmehr durch das langfristige Überleben von Befunden unter unabhängiger Prüfung. Das ist jedoch knifflig in einem System,94 das eigentlich Geschwindigkeit, Karriere und Aufmerksamkeit belohnt.
Im nächsten Teil geht es genau um diese Verzerrungen – und darum, wie sie unser Wissen trüben.
Der Artikel Why Most Published Research Findings Are False gilt als die meistgelesene Publikation von Public Library of Science (PLoS Medicine) mit über 3 Millionen Zugriffen.22 Dieser methodenkritische Essay von John P. A. Ioannidis (2005) demonstriert, warum viele veröffentlichte Forschungsergebnisse fehlerhaft oder übertrieben ausfallen. Kleine Stichproben, flexible Studiendesigns, selektive Endpunkte, Interessenkonflikte und Publikationsbias (siehe Bias-Systematik) erhöhen die Wahrscheinlichkeit, dass Resultate nicht stimmen. Je kleiner der Effekt und je mehr Freiheitsgrade Forschende bei der Auswertung nutzen, desto grösser das Risiko von Fehlschlüssen. Viele Studien bleiben nicht reproduzierbar oder unabhängig verifizierbar (replizierbar); ihre Ergebnisse erscheinen dadurch unsicher.22
All dies erhöht die Anfälligkeit von Evidenz. Verschiedene Faktoren trüben den Blick: Manche beruhen auf der Art der Studien selbst, andere auf systemischen Verzerrungen. Wer diese Einflüsse kennt, versteht, weshalb Ergebnisse unterschiedlich ausfallen und Empfehlungen wechseln.
Dieser Textteil beleuchtet, wie verzerrtes Wissen entsteht. Wir erklären, weshalb Labor- und Tierstudien eine geringe Evidenz aufweisen, obwohl sie Teil der Grundlagenforschung sind. Im Anschluss beschreiben wir, wie systemische Verzerrungen (Bias) Studienergebnisse verfälschen.
Abschliessend diskutieren wir die Bedeutung der Reproduzierbarkeit und Replizierbarkeit von Studien. Dazu Gründe für die allzu seltene Überprüfungspraxis im Wissenschaftsalltag.
Definition
"In vitro" heisst "im Glas" (z.B. Petrischale). Forschende untersuchen isolierte Zellen oder Gewebe ausserhalb des Körpers. Tiermodelle nutzen Mäuse, Ratten oder andere Spezies, um Abläufe im Organismus zu beobachten.
Chancen
In-vitro-Modelle ermöglichen es, zelluläre Signalwege präzise zu untersuchen und Aktivierungen oder Hemmungen direkt nachzuweisen. Tiermodelle decken auf, wie Substanzen Organe beeinflussen. Experimente liefern erste Hypothesen und enthüllen potenzielle Risiken.
Grenzen
Im Unterschied zu Zellen im Labor wirkt in Mensch und Tier ein komplexerer und systemischer Stoffwechsel. Tiere weisen grosse Unterschiede in Genetik, Ernährung und Lebensdauer auf. Ein Effekt, der bei Mäusen stark wirkt, bleibt beim Menschen oft aus. Resultate sehen präzise aus, gelten aber nur eingeschränkt.
Beispiele verdeutlichen die Grenzen: Zahlreiche Substanzen stoppen Tumore bei Mäusen, versagen aber beim Menschen. Auch bei Nahrungsergänzungen täuschen Laborversuche: Isolierte Antioxidantien wirken im Reagenzglas schützend, doch ist das bei hoch dosierten Nahrungsergänzungsmitteln für Menschen zumindest fraglich. In gewissen Fällen erhöhen sie sogar das Risiko, etwa supplementiertes Betacarotin bei RaucherInnen.
Als integrale Bestandteile der Grundlagenforschung liefern In-vitro- und Tiermodelle wertvolle Hypothesen. In der Evidenz-Hierarchie hingegen zählen sie zur untersten Evidenz-Stufe.
Labor- und Tierstudien schaffen Grundlagenwissen, mehr meistens nicht. Viele Fachleute und Medien präsentieren Tierversuche irreführend als humanrelevant. Das ist einer der häufigsten Fehlgriffe in der Ernährungsforschung, weil er auf vorschnellen Schlussfolgerungen basiert.
Ein typischer Mechanismus: Zellstudien (in vitro) erreichen eine gewünschte Wirkung, etwa die Hemmung bestimmter Entzündungswege. In der öffentlichen Darstellung entsteht daraus vorschnell: Lebensmittel X schützt vor Entzündungen. Der Schritt vom Reagenzglas zur Ernährungsempfehlung übergeht den gesamten Stoffwechsel. Hier die Verdauung, die Bioverfügbarkeit und Wechselwirkungen im Organismus.
Diese Einschränkung betrifft auch Tiermodelle. Mäuse, Ratten oder Schweine reagieren auf Nährstoffe, Hormone und Giftstoffe teils vollkommen anders als Menschen. Das Thema behandeln Farooqi et al. (2024) wie folgt: Not all findings made in rodents have translated to humans, hampering drug discovery in this field..36
Unterschiede in Genetik, Darmflora und Lebensdauer verunmöglichen die Übertragbarkeit vieler Ergebnisse auf den Menschen. Eine Substanz, die bei Mäusen Krebs hemmt, kann beim Menschen wirkungslos und/oder schädlich agieren. Solche Übertragungsfehler befeuern Schlagzeilen, die wissenschaftlich kaum etwas tragen. Sie erklären, warum angebliche "Durchbrüche" aus Laboren selten Bewährung finden. Erst klinische Studien am Menschen beweisen, ob ein beobachteter Mechanismus tatsächlich wirkt, in welcher Dosis und unter welchen Bedingungen. Und dies nur, wenn kein Bias vorhanden ist.
Ein weiteres Beispiel von vielen liefert die Ernährungsforschung: In Tiermodellen und Zellstudien wirkte Resveratrol antioxidativ und stoffwechselaktivierend. Medien und Hersteller leiteten daraus einen "stoffwechselankurbelnden" Effekt ab. In einer sechsmonatigen, placebokontrollierten Studie mit übergewichtigen Erwachsenen blieb der erhoffte Nutzen aus. De Ligt et al. (2020) berichten: Insulin sensitivity was not affected after 6 mo of resveratrol treatment. 37 Die Studie folgte einem randomisierten, doppelblinden, placebokontrollierten Parallelgruppendesign. Es nahmen 45 übergewichtige Männer und Frauen teil, die über sechs Monate täglich 500 mg Resveratrol erhielten oder ein Placebo. Primärer Endpunkt war die Insulinsensitivität, gemessen mit dem Matsuda-Index aus oralen Glukosetests. Sekundäre Endpunkte umfassten Leberfettgehalt, Körperzusammensetzung, Blutdruck, Energieumsatz und Lebensqualität. Nach Abschluss wiesen die Gruppen keine signifikanten Unterschiede auf.
Unsere Tragik: Auch wir unterwerfen uns zu oft der Täuschung aus der Wissenschaft. Aus diesem Beispiel heraus lernen wir, auf die Art der Studie und deren Schwächen zu verweisen.
Diese Diskrepanz zwischen Labor- und Humanstudien verdeutlicht, dass Wirkmechanismen im Zellmodell nicht automatisch klinische Relevanz besitzen. Nur kontrollierte Studien am Menschen belegen biochemische Hypothesen.
Fazit
In-vitro-Experimente und Tierstudien klären lediglich Grundlagen. Sie helfen, Hypothesen zu entwickeln und grobe Gefahren abzuschätzen. Für Ernährung und Medizin reicht das nicht. Nur klinische Forschung am Menschen bekundet, welche Effekte tatsächlich auftreten. Hilft die Studie einer Industrie oder einem Interesse, verwendet sie die Resultate als Tatsache. Auch der überaus schädliche Hype um Protein ist so entstanden. Resultat: Die Aussage jedes zusätzliche Protein ist gesund gilt heute als Binsenweisheit. Eine andere Wahrheit kann keine Akzeptanz erreichen. Tragisch für die Menschheit, denn das Gegenteil ist der Fall. Siehe die Buchbesprechung über die China Study. Zudem beschreibt das Buch Proteinaholic des Chirurgen Garth Davis und des Wissenschaftsjournalisten Howard Jacobson mit ca. 480 Studien die Problematik von tierischem Protein überzeugend.52
Moderne humanrelevante Methoden zielen auf eine höhere Aussagekraft. Zudem weisen sie in Richtung einer tierversuchsfreien Zukunft. Das 3R‑Prinzip – Ersetzen, Reduzieren, Verfeinern – bildet die ethische Grundlage für tierversuchsfreie Methoden. Russell & Burch formulierten es 1959. Die Richtlinie 2010/63/EU verankerte es im europäischen Recht.77,78 Forschende sollen Tierversuche minimieren oder durch Alternativen ersetzen.79 Trotz Fortschritten bestehen ethische Zweifel, ob die 3Rs ausreichen.80
Untersuchungen wie Mehta et al. (2025) analysierten die Übertragbarkeit von Tierversuchen. Über 90 % der als sicher und wirksam eingestuften Substanzen erreichen keine Anwendung beim Menschen.81
Gründe sind mangelnde Sicherheit oder fehlende Wirksamkeit. Die Erfolgsquote der Übertragbarkeit besitzt keine feste Definition. Verschiedene Berechnungsansätze sind möglich.82 Deshalb existieren auch Untersuchungen, die höhere Erfolgsraten berechnen.83,84
Neue methodische Ansätze (NAMs) bilden die menschliche Biologie direkter ab. Daher der Begriff „humanrelevant“. Ihr Einsatz zielt auf eine verbesserte Übertragbarkeit präklinischer Ergebnisse in die klinische Forschung.80,81
Ex-vivo-Gewebe mit menschlichen Zellen
Ex‑vivo‑Gewebe sind entnommene menschliche Gewebeproben, die ausserhalb des Körpers unter möglichst natürlichen Bedingungen untersucht sind. Sie basieren auf echtem menschlichem Gewebe und dienen im Labor der weiteren Kultivierung oder Analyse.85,86,87 Beispielsweise „Lunge-auf-einem-Chip“ oder „Leber-auf-einem-Chip“. Hierbei arbeiten menschliche Zellen im Labor unter realistischen Bedingungen zusammen. Eine FDA-Studie erkannte etwa mit einem „menschlichen Leber-Chip“ 87 % der Medikamente, die Leberschäden verursachen.88
In-silico-Methoden
Der Begriff „In-silico“ leitet sich von Silizium ab, dem Grundmaterial von Computerchips. In-silico-Modelle verwenden rechnergestützte Simulationen. Sie modellieren biologische, chemische und pharmakologische Prozesse.
Labor- oder Tierversuche sind dafür nicht erforderlich. In-silico-Modelle erlauben Vorhersagen zur Verteilung von Medikamenten im menschlichen Körper. Häufig kommt dabei physiologisch basierte Pharmakokinetik (PBPK) zum Einsatz.89,90 Dies vermag die Vorhersagegenauigkeit gegenüber Tierversuchen zu verbessern.
Die Methode nutzt Bild- und Datenmodelle, KI und Simulationen.80,81 Maschinelles Lernen kann PBPK-Modelle ergänzen, wenn keine experimentellen Daten verfügbar sind.90 KI-Modelle prognostizieren etwa anhand der Aminosäurenstruktur viel besser, ob Antikörper gefährliche Immunreaktionen auslösen.91
Hochdurchsatz-Screening
Automatisierte Labormethode zur parallelen Testung von zehntausenden bis Millionen Substanzen. Ziel ist die Identifikation biologischer Wirkungen. Dabei führen Roboter biochemische, genetische oder pharmakologische Tests vollautomatisch durch.92
Mikrodosierung beim Menschen
Mikrodosierung ermöglicht die frühzeitige Gewinnung pharmakokinetischer Daten beim Menschen bei minimalem Risiko. Dies entspricht eher der klinischen Realität.93
Bias bezeichnet jede systemische Verzerrung oder Voreingenommenheit, die Design, Durchführung oder Interpretation einer Studie beeinflussen. Dazu zählen:
Die Forschung kennt über 100 katalogisierte Bias-Arten. Eine vollständige Auflistung ergäbe Unübersichtlichkeit. Wir konzentrieren uns auf jene Bias-Arten, die in der Ernährungsforschung am häufigsten auftreten. Weil sie am stärksten verzerren, durchschauen wir sie am einfachsten. Damit bilden sie das fundamentale Handwerkszeug für Ihre kritische Urteilsbildung.
Solche Verzerrungen verändern Ergebnisse oft stärker als Zufall oder Messfehler. Auf diese Art prägen sie das Bild der Ernährungsforschung. Sie erklären, weshalb gleiche Fragen so unterschiedliche Antworten liefern.
Als häufigste und wirkmächtige Mechanismen treiben folgende Bias-Arten die fehlgeleitete Evidenzproduktion voran:
Funding-Bias entsteht, wenn Geldgeber Ergebnisse beeinflussen. Studien aus Industrie oder Interessengruppen liefern überdurchschnittlich oft geschönte Resultate. Die Wahl der Fragestellung oder der Vergleichsgruppe lenkt den Ausgang. So überzeichnen Hersteller Wirksamkeit und Sicherheit ihrer Produkte. Dies dient oft dazu, eine Branche reinzuwaschen und Konkurrenten zu belasten.
Zuckerindustrie lenkt Forschung: Kearns et al. (2016) analysierten interne Akten grosser US-Hersteller. Sie rekonstruierten, dass Industrievertreter Forschende direkt beauftragt hatten, Zucker von der Verantwortung für Herzkrankheiten zu entlasten. Dazu galt es, gesättigte Fette als Hauptschuldige darzustellen. Diese gezielte Einflussnahme veränderte die Forschungsagenda. Damit auch die Veröffentlichungspolitik und die Ernährungsberatung ganzer Jahrzehnte. Der Vorgang gilt heute als paradigmatischer Beleg für den Funding-Bias in der Ernährungswissenschaft.38
Ein aktuelles Beispiel liefert die Auswertung von López-Moreno et al. (2025). Das Team prüfte 44 klinische Studien zum Zusammenhang zwischen unverarbeitetem rotem Fleisch und Herz-Kreislauf-Erkrankungen. Ergebnis: Arbeiten mit finanziellen oder institutionellen Verbindungen zur Fleischindustrie publizierten nahezu ausschliesslich positive oder neutrale Befunde. Keine einzige wies auf erhöhte Risiken hin. Unabhängig finanzierte Studien kamen dagegen überwiegend zu negativen Resultaten.
Der Unterschied war statistisch hochsignifikant (Odds Ratio ≈ 3.75 [95 %-CI 1.62–8.67]). Diese Abweichungen entstehen nicht durch Zufall, sondern durch gezielte Auswahl von Fragestellung, Endpunkten und Vergleichsgruppen. Die Studie verdeutlicht, wie wirtschaftliche Interessen wissenschaftliche Evidenz verschieben und die öffentliche Wahrnehmung steuern.39
Selektions-Bias tritt auf, wenn die Zusammensetzung einer Studiengruppe nicht zufällig ist. Zum Beispiel, wenn sie davon abhängt, wer an der Studie teilnimmt oder bis zum Ende dabei bleibt. Wenn bestimmte Personen aufgrund ihrer Eigenschaften häufiger teilnehmen oder häufiger ausscheiden, kann dies einen scheinbaren Zusammenhang erzeugen. Solche Verzerrungen können Aussagekraft und Glaubwürdigkeit der Studienergebnisse erheblich beeinträchtigen.5
Eine Studie könnte also untersuchen, ob häufiges Essen von Fertigprodukten das Risiko für Übergewicht erhöht. Wenn die Teilnahme freiwillig erfolgt, melden sich möglicherweise vor allem Menschen, die bewusst auf ihre Ernährung achten oder bereits an Gewichtsmanagementprogrammen teilnehmen. Diese essen seltener Fertigprodukte. Gleichzeitig brechen Personen, die regelmässig ungesunde Snacks essen, häufiger ab oder nehmen nicht teil. Dadurch könnte es in der Studie so aussehen, als ob der Konsum von Fertigprodukten kaum oder gar nicht mit Übergewicht zusammenhängt. Die Verzerrung entsteht also durch die Art der Teilnahme und den Verbleib in der Studie, nicht durch den tatsächlichen Effekt der Ernährung.
Eine wichtige Ausprägung ist der Healthy-User-Bias:
Gesundheitsbewusste Menschen leben in vielen Bereichen anders. Sie treiben mehr Sport, rauchen weniger, schlafen besser. Studien schreiben diese Vorteile fälschlich einem einzelnen Faktor zu, etwa einer bestimmten Diät. Shrank et al. (2011) vermitteln sehr klar und leicht verständlich, speziell zur Problematik: Gesunde Menschen verhalten sich generell viel gewissenhafter als der Durchschnitt.6
Einen Fall aus dem Wissenschaftsalltag stellen wir Ihnen im Teil Praxis: Grosse Studien durchleuchtet vor.
Fachzeitschriften veröffentlichen positive bzw. statistisch relevante Ergebnisse viel öfter als neutrale oder negative.
Dwan et al. (2013) berichten von häufigen Publikations-Biases bei Studien zu Antidepressiva. Damit wirkt ihr Nutzen grösser, als er tatsächlich ist.7
Recall-Bias entsteht, wenn Forschende Teilnehmende rückblickend befragen.
Kranke erinnern sich an ihr Verhalten anders als Gesunde, weil sie nach Ursachen für ihre Krankheit suchen. Dadurch entstehen systematische Verzerrungen. Das berichtet Coughlin (1990) in einer der ersten Arbeiten zu Recall-Bias.8
Reproduzierbarkeit und Replikation betreffen unterschiedliche Ebenen wissenschaftlicher Evidenz. Reproduzierbarkeit beschreibt, ob sich ein publiziertes Ergebnis mit denselben Daten und denselben Analyseentscheidungen nachvollziehen lässt. Sie ist Voraussetzung dafür, dass Befunde methodisch überprüfbar sind. Replikation hingegen prüft, ob ein Effekt auch mit neuen Daten unter vergleichbaren Bedingungen erneut auftritt. Erst Replikation entscheidet darüber, ob ein statistisch korrekt berechnetes Ergebnis empirisch belastbar ist.
In vielen Forschungsfeldern vermischen sich diese Ebenen. Das führt dazu, dass analytisch saubere Einzelstudien als evidenzstark gelten, obwohl ihre Befunde empirisch nicht abgesichert sind. Die folgende Diskussion fokussiert daher primär auf Replikation als zentrales Kriterium belastbarer Evidenz, insbesondere im Kontext systemischer Verzerrungen der Forschung.
Ein Befund gilt als replizierbar, wenn unabhängige Forschende unter vergleichbaren Bedingungen mit neuen Daten zu einem ähnlichen Ergebnis gelangen. Replikation prüft damit, ob ein Effekt über die ursprüngliche Stichprobe hinaus Bestand hat. Gelingt der erneute Nachweis auch unter leicht veränderten Bedingungen, stärkt dies zusätzlich seine Glaubwürdigkeit.
Echte Evidenz entsteht dort, wo Forschende Ergebnisse unabhängig bestätigen. Dennoch bleiben viele Studien Einzelbeobachtungen. Kaum jemand prüft, ob Resultate tatsächlich belastbar sind. Replikation gilt daher als schärfste Form wissenschaftlicher Prüfung. Fehlt diese Kontrolle, droht Scheinwissen: statistisch korrekt, praktisch wertlos (siehe oben bei: Grenzen der Statistik). Besteht ein Effekt unabhängig von Forscherteam, Region oder Methode, gilt er als belastbar.
In der Ernährungsforschung ist das besonders heikel: Einzelstudien erzeugen regelmässig mediale Aufmerksamkeit und widersprüchliche Schlagzeilen. Ohne systematische Replikation fehlt die Sicherheit: Zufallseffekte, Messfehler oder Bias bleiben unbemerkt.
Wie Begley & Ellis (2012) berichteten, konnten grosse Replikationsprojekte in den Life Sciences weniger als die Hälfte der publizierten Resultate bestätigen.40 Infolge dieser und weiterer Kontroversen in den Jahren 2011–2013 entstanden weitere Testreihen zu Reproduzierbarkeit und Replizierbarkeit früherer Ergebnisse. Dies beschreiben Korbmacher et al. (2023) als Replikationskrise.94
Daraus entwickelte sich eine credibility revolution, die strukturelle, prozedurale und gemeinschaftliche Veränderungen in den Wissenschaftspraktiken anstiess. Die AutorInnen betonen, dass Transparenz- und Open-Science-Praktiken die Glaubwürdigkeit von Forschungsergebnissen stärken, wohingegen Anreizstrukturen und Publikationspraktiken der Umsetzung dieser Standards im Wege stehen.
Fazit
In-vitro-Experimente und Tiermodelle liefern erste Hinweise, keine Gewissheiten über Wirkungen bei Menschen. Selbst Studien am Menschen sind anfällig für systematische Verzerrungen, etwa durch Publikationsbias, flexible Analysen oder Interessenkonflikte. Diese Faktoren trüben die Evidenz. Wer diese Grenzen kennt, kann Forschung realistischer einschätzen. Das Problem: Nur ein kleiner Teil der Bevölkerung kann solche Unterschiede richtig einordnen – und genau das nutzt die Industrie. Solange Politik und Bildung diesen Mangel ignorieren, bleibt die Gesellschaft manipulierbar. Die Folge: Fehlgeleitete Ernährungsempfehlungen und industrielle Interessen bestimmen, was als "gesund" gilt. Solange der Staat bzw. die Politik das nicht erkennt und ändert, bleiben viele BürgerInnen ein Spielball der Industrie.
Diese systemischen Verzerrungen bilden den Nährboden für methodische Schwächen in Studien. Wie Sie solche Einflüsse im Studiendesign erkennen, erörtern wir weiter unten.
Wissenschaftliche Untersuchungen bestehen aus zwei Ebenen.
Primärstudien erzeugen eigene Daten. Sie arbeiten entweder experimentell oder beobachtend. Sekundärstudien werten diese Primärstudien aus. Dazu gehören Reviews und Meta-Analysen. Beide Ebenen besitzen typische Stärken und Schwächen und beantworten unterschiedliche Arten von Fragen.
Übersicht Studienarten
Primärstudien
Randomisierte kontrollierte Studien (RCTs), Nicht randomisierte Interventionsstudien (quasi-experimentelle Studien), Crossover-Studien, Feldexperimente.
Unterart: Labor- und Tierexperimente (präklinisch: in vivo, in vitro)
Kohortenstudien (prospektiv oder retrospektiv), Fall-Kontroll-Studien, Querschnittstudien, ökologische Studien, Registerstudien (Real-World-Evidence), Fallberichte und Fallserien
Sekundärstudien
Systematische Reviews, Meta-Analysen, Scoping Reviews, Narrative Reviews
Primärstudien erzeugen eigene Daten. Forschende arbeiten experimentell oder beobachtend. Metabolomik- und Biomarker-Studien erfassen objektive Messwerte wie Fettsäuremuster und bilden Ernährung genauer ab als Befragungen.
Stärken: Objektive Messungen verringern Fehler in Selbstauskünften.
Schwächen: Biomarker erfassen meist nur einzelne Lebensmittel oder Muster und blenden grosse Teile des Ernährungsstils aus.
a) Randomisierte kontrollierte Studien (RCTs) prüfen gezielt Ernährungsinterventionen oder Therapieansätze mit zufälliger Zuteilung der Teilnehmer. Beispiele: Low-Carb vs. Low-Fat, Nüsse oder Vollkorn auf Cholesterin, Essenszeiten/Intervallfasten.
Stärken: Randomisierung, Kontrollgruppen, Verblindung.
Schwächen: kurze Dauer, kleine Gruppen, Compliance-Probleme.
b) Nicht-randomisierte Interventionsstudie prüfen Ernährungsinterventionen ohne zufällige Zuteilung der Teilnehmenden. Beispiele: Vergleich zweier Diäten, bei denen sich die Gruppen selbst wählen (z. B. vegetarisch vs. omnivor).
Stärken: hohe Alltagstauglichkeit, grössere Gruppen leicht rekrutierbar
Schwächen: höhere Gefahr für Verzerrungen (Selection Bias), Gruppen unterscheiden sich oft systematisch (Motivation, Gesundheitsbewusstsein)
c) Kontrollierte Fütterungsstudie ("Feeding trials") verköstigen Teilnehmenden mit allen Mahlzeiten. Oft in einer kontrollierten Umgebung (z. B. Klinik). Ziel ist die tatsächliche Nahrungsaufnahme exakt zu kontrollieren und präzise physiologische Effekte zu messen.
Stärken: höchste Kontrolle über die Ernährung.
Schwächen: kostspielig, zeitlich begrenzt.
d) Cross-Over-Studie untersuchen nacheinander verschiedene Interventionen. Versuchspersonen durchlaufen diese in zufälliger oder festgelegter Reihenfolge. Interventionen sind getrennt durch eine "Wash-Out"-Phase.
Stärken: Jede Person dient als eigene Kontrolle, kleinere Stichprobe ausreichend, geeignet für kurzfristige Interventionen
Schwächen: Gefahr von "Carry-over-Effekten", also Wirkung der ersten Phase beeinflusst die zweite Phase. Ist nicht geeignet für langfristige Interventionen, bringt höhere Belastung für Teilnehmende.
a) Prospektive Kohortenstudien verfolgen grosse Bevölkerungsgruppen über Jahre. Beispiele: China Study, Nurses’ Health Study, EPIC, ARIC.
Stärken: grosse Fallzahlen, lange Beobachtungsdauer.
Schwächen: fehleranfällige Ernährungsmessung; keine klare Kausalität.
b) Fall-Kontroll-Studien vergleichen Ernährungsdaten von Erkrankten und Kontrollen rückblickend.
Stärken: schnell, günstig, ideal für seltene Krankheiten.
Schwächen: hohe Erinnerungsfehler; retrospektive Verzerrungen.
c) Querschnittstudien erheben Daten zu einem Zeitpunkt. Beispiel: Zuckerkonsum und BMI in einer Stichprobe.
Stärken: gut für Trends und erste Hinweise.
Schwächen: keine zeitliche Abfolge, keine Ursache–Wirkung.
Sekundärliteratur oder Sekundärstudien bezeichnen wissenschaftliche Arbeiten, die nicht eigene Originaldaten erheben. Sie analysieren veröffentlichte Primärstudien, fassen zusammen, bewerten oder ordnen systematisch ein. Dazu gehören auch Meta‑Analysen, die die Ergebnisse mehrerer Primärstudien statistisch zusammenführen. Dies, um übergeordnete Effekte oder Zusammenhänge zu quantifizieren. Es gibt eine Vielzahl von verschiedenen Formen von Sekundärstudien. Grant et al. 2009 unterscheiden etwa 14 unterschiedliche Review-Formate (Überblicksarbeiten), darunter auch die bekanntesten Formen:98
Besonders problematisch ist, dass die Begriffe nicht geschützt sind. Teilweise gibt es auch unterschiedliche Auffassungen bezüglich des methodischen Vorgehens.
So gibt es keinen Konsens über das exakte methodische Vorgehen eines systematischen Reviews. Eine Untersuchung aus dem Jahr 2019 belegt, dass viele als systematisch bezeichnete Übersichten sehr unterschiedliche methodische Vorgehensweisen aufweisen.99 Wichtig wäre auch, dass Suchstrategien von systematischen Reviews reproduzierbar sind. Rethlefsen et al. (2024) weisen nach, dass von 100 systematischen Reviews nur eine 100 % reproduzierbar war. Die restlichen 99 % enthielten unzureichende Angaben.100 Es gibt auch Fälle, die "systematisches Review" im Titel haben, die jedoch tatsächlich narrative Reviews darstellen.101 Manche Fachzeitschriften oder Autoren nutzen den Begriff dann im Sinn von "breite Literaturzusammenstellung".
a) Systematische Reviews und Metaanalysen fassen den Forschungsstand zu einer Frage zusammen (z. B. rotes Fleisch und Krebsrisiko).
Stärken: höhere Aussagekraft als Einzelstudien.
Schwächen: abhängig von der Qualität der eingeschlossenen Studien.
b) Narrative Reviews geben Orientierung über einen Themenbereich.
Stärken: guter Überblick für Laien.
Schwächen: Autoren-Bias; keine klaren Wirksamkeitsnachweise.
Viele unserer Leserinnen und Leser stammen nicht aus der akademischen Welt. Trotzdem erklären wir, wie wissenschaftliche Publikationen funktionieren – denn ohne dieses Grundwissen fallen Sie bei Ernährungsfragen leider auf Marketing und Ideologie herein. Wer die Basis kennt, beurteilt Studien sicherer und hinterfragt Quellen kritischer.
Von der Idee bis zur Veröffentlichung einer Studie führt ein langer, oft beschwerlicher Weg.
Vom Experiment zur Publikation
Planung und Studiendesign: Forschende formulieren eine Fragestellung, wählen das Studiendesign (z.B. RCT, Kohorte) und beantragen Ethikbewilligungen.
Datenerhebung: Sie rekrutieren Probanden, führen Interventionen durch und erfassen Messwerte.
Analyse: Das Team wertet die Daten statistisch aus und berücksichtigt Störfaktoren.
Manuskript: Die Forschenden schreiben die Ergebnisse in einem Artikel nieder.
Peer-Review: Andere Fachleute prüfen den Artikel kritisch und verlangen nicht selten Korrekturen.
Publikation: Eine Fachzeitschrift publiziert die Arbeit, meistens mit DOI. Der DOI (Digital Object Identifier) ist eine eindeutige Kennung, vergleichbar mit einer dauerhaften Internetadresse. Er beginnt immer mit 10. → als Kennzeichen für DOI. Danach folgt eine Ziffernfolge, die den Verlag oder die Registrierungsagentur identifiziert. Beispiel: 10.1001 = American Medical Association (JAMA). Zusammen ist es das Präfix des DOI. Das Suffix besteht aus vom Verlag freigegebenen Informationen, meist als Kürzel für Zeitschrift, Jahr, Band, Artikelnummer oder interne ID. Beispiel: 10.1001/jama.2018.0245 führt direkt zur DIETFITS-Studie.
Das Studiendesign definiert die zentralen Bedingungen einer Untersuchung. Das Design legt fest, wie Forschende Daten erheben und auswerten. Dazu zählen:
Ein durchdachtes Studiendesign sichert die Aussagekraft der Ergebnisse.
Zu den frei zugänglichen Quellen gehören PubMed, PubMed Central, die Cochrane Library (teils offen) und Google Scholar. Zahlreiche wissenschaftliche Volltexte liegen hinter Paywalls und erfordern Universitätszugänge. Unpaywall gestattet den legalen Abruf von Open-Access-Versionen. Sci-Hub und ähnliche Dienste bieten ebenfalls Zugriff, liegen hingegen rechtlich in Grauzonen. Im Detail:
Open Access - frei und legal
Ein Teil der Forschung erscheint als Open-Access-Publikation. Autorinnen, Autoren oder Förderinstitutionen übernehmen die Publikationskosten, damit Interessierte kostenfrei auf den Volltext zugreifen. Dieses Modell kehrt das traditionelle Verlagsprinzip um: Vorabfinanzierung erlaubt dauerhaft offenen Zugang. Beispiele: PLOS ONE, Nutrients, Frontiers.
Institutionelle Repositorien und Datenbanken (frei zugänglich, legal)
Viele Universitäten verpflichten ihre Forschenden, eine Kopie ihrer Arbeiten in Repositorien abzulegen (z.B. Harvard DASH, ETH Research Collection). Plattformen wie PubMed Central oder Zenodo enthalten frei zugängliche Artikel.
Preprints und Plattformen
Immer mehr Forschende stellen Preprints ins Netz – Manuskripte ohne Peer-Review. Andere laden akzeptierte Manuskripte („Accepted Manuscripts“) nach der Begutachtung sichtbar hoch, bevor der Verlag den Satz erstellt. Diese Fassungen bleiben legal zugänglich und weichen meist nur gering vom Endtext ab.
Plattformen wie ResearchGate oder Academia.edu – Graubereich
Auf ResearchGate, Academia.edu und ähnlichen Plattformen veröffentlichen Forschende ihre Arbeiten direkt für die Fachgemeinschaft. Ein grosser Teil der Beiträge steht rechtlich einwandfrei online (Preprints und Manuskripte). Leider verletzen einige PDF-Dateien Verlagsrechte. Wer Volltexte aufruft, handelt damit ausserhalb der gesicherten Rechtslage.
Unpaywall und ähnliche Dienste – legale Suchwerkzeuge
Unpaywall arbeitet als Browser-Erweiterung und findet beim Klick auf eine DOI automatisch frei verfügbare Versionen. Das Tool verweist auf legale Quellen wie universitäre Repositorien oder Open-Access-Archive.
Verlagsseiten hinter Paywalls.
Paywalls bleiben rechtlich zulässig und inhaltlich restriktiv: Renommierte Journale wie Nature, The Lancet oder JAMA verlangen Gebühren für den Zugang. Universitäten lizenzieren komplette Pakete und ermöglichen so den Zugang zu Texten für Studierende und Forschende. Privatpersonen zahlen für Einzelartikel. Kritiker beanstanden das Modell: Verlage verkaufen öffentlich finanzierte Forschung teuer zurück und behindern den freien Wissensaustausch.
Open Access im Gegensatz
Vorabfinanzierung sichert dauerhaft freien Zugang zum Volltext. Mangelhafte Qualität und überzogene Selbstdarstellung kennzeichnen leider manche Arbeiten.
Illegale Zugänge wie Sci-Hub
Die kasachische Informatikerin Alexandra Elbakyan gründete 2011 Sci-Hub als Reaktion auf die hohen Artikelpreise der Verlage. Die Plattform bietet weltweit Millionen wissenschaftlicher Texte an und verstösst dabei meist gegen Urheberrechte. Viele Länder blockieren den Zugang – etwa die USA, Grossbritannien, Frankreich und Russland. Der Zugriff funktioniert technisch über VPN oder TOR. Forschende in ärmeren Ländern nutzen häufig sci-hub.in, weil ihnen legale Wege fehlen. Die Eingabe des DOI reicht aus; wir veröffentlichen den DOI immer.
Interessenkonflikte: Verlage stützen ihre Geschäftsmodelle auf Paywalls, während Forschende und Förderinstitutionen offene Wissenschaft fordern. Frank (2023) beschreibt, dass Open-Access-Modelle edel wirken, Kosten und Risiken aber den Forschenden überlassen.¹⁷
Autorenrechte: Viele Verlagsverträge erlauben das Teilen von Preprints und Manuskripten, verbieten aber die Verlagsversion. Diese Praxis schafft Unsicherheit. Geiger (2024) betont ein Urheberrecht, das Forschung und Open Science rechtlich absichert.¹⁸
Plattformen: Netzwerke wie ResearchGate überbrücken die Kluft zwischen Paywall und offener Publikation. Sie enthalten sowohl legale Preprints wie unrechtmässig hochgeladene Verlagsfassungen, was Konflikte mit Rechteinhabern erzeugt. Colavizza et al. (2024) belegen, dass Preprints den Zugang verbessern und Zitationen um etwa 20 Prozent steigern.¹⁹
Politische Dimension: Grosse westliche Verlage beherrschen den Markt wissenschaftlicher Publikationen und halten viele Ergebnisse hinter Paywalls zurück. Thibault et al. (2023) fordern, dass Open-Science-Strategien mehr Transparenz, freie Daten und klare politische Steuerung sicherstellen.²⁰
Nicht nur der Zugang, auch der Weg dorthin prägt die Qualität des Wissens. Prüfverfahren und Publikationswege legen fest, was als gesichert gilt.
Wissenschaftliche Publikationen folgen heute wirtschaftlicher Logik. Grosse Verlage verdienen doppelt: Forschende liefern Inhalte kostenlos und kaufen den Zugang zu ihren eigenen Arbeiten zurück. Die Kosten tragen Universitäten, Förderinstitutionen oder letztlich die Öffentlichkeit. Solange Zitationen über den Karrierewert entscheiden, bleibt Publikation ein Markt mit Gewinnern und Abhängigen.
Open-Access-Modelle sollten diese Schieflage korrigieren. Inzwischen entstehen neue Abhängigkeiten: Wer bezahlt, veröffentlicht. Viele Journals verlangen hohe "Article Processing Charges". Damit schliessen sie finanzschwächere Einrichtungen aus. Die Bezahlung wechselt vom Lesenden zum Publizierenden.
Offene Wissenschaft verlangt mehr als freien Zugang. Sie benötigt offene Daten, transparente Begutachtung und faire Rahmenbedingungen, damit Wissen wieder als Gemeingut zirkuliert, nicht als Handelsware.
Nach Entstehung, Prüfung und Veröffentlichung bleibt die entscheidende Frage: Wie belastbar ist dieses Wissen?
Evidenz bedeutet Beweisbarkeit. Augenscheinliche Befunde oder offenkundige Ergebnisse bedeuten nicht unbedingt Beweisbarkeit. Im Gegensatz dazu beschreibt die Evidenz den Grad der Beweisbarkeit präzise und nachvollziehbar. Sie beschreibt, wie gut ein Zusammenhang durch überprüfbare Daten gestützt ist. Studien erhalten aufgrund ihrer Datengrundlage und Methodik unterschiedliche Evidenzstärken.
Jahrhundertelang war medizinisches Wissen autoritätsbasiert. Was berühmte Ärzte sagten, galt als wahr und richtig. Die klinische Erfahrung war die wichtigste und oft einzige Grundlage. Der Wechsel zu evidenzbasierter Medizin führt zur Einführung von Evidenz‑Level und Evidenz-Pyramiden.
Sie ordnen Studien nach ihrer Beweiskraft. An der Spitze stehen die zuverlässigsten, an der Basis die schwächsten. Die evidenzbasierte Medizin hat philosophische Wurzeln im Paris des 19. Jahrhunderts und früher. Sie bleibt bis heute umstritten. Kliniker stehen ebenso im Fokus wie das öffentliche Gesundheitswesen. Zudem betrifft es Einkäufer, Planer und die Öffentlichkeit.
Der folgende Abschnitt vermittelt einen Überblick über die Aussagekraft unterschiedlicher Studienarten. Das erlaubt Ihnen, Aussagen richtig einzuordnen. Evidenz ist jedoch dynamisch, vorläufig und kontextabhängig. Somit sind auch diese Beurteilungskriterien situationsbedingt einzusetzen (siehe dazu Evidenz richtig einordnen).
In der Medizin und den Ernährungswissenschaften gelten sogenannte Evidenz-Pyramiden als bewährtes Modell. Sie ordnen Studien nach ihrer Beweiskraft (Evidenz-Level). An der Spitze stehen die zuverlässigsten, an der Basis die schwächsten. Gemäss Burns et al. 2011 erfolgten die ersten Evidenz-Hierarchisierungen ab den 1970er Jahren. Grundlegende Veröffentlichungen waren:
Canadian Task Force on the Periodic Health Examination (1979).102
David L. Sacketts Artikel zu Rules of evidence and clinical recommendations on the use of antithrombotic agents (1989).103
Für die praktische Anwendung war jedoch der Artikel von Sackett et al. (1996) grundlegend. Sie definierten erstmals Evidenzbasierte Medizin. Diese sei ein Zusammenspiel von externer Evidenz, klinischer Expertise und Präferenzen von PatientInnen. Zugleich betonten die Autoren, dass externe Evidenz vorrangig aus methodisch sauberer, klinischer Forschung stammt. Damit rückt die Qualität wissenschaftlicher Methoden ins Zentrum. Diese Neubestimmung verdeutlichte, dass Studien je nach Design unterschiedlich belastbare Aussagen liefern. Der Artikel skizziert das methodische Fundament, auf dem die späteren Evidenz-Pyramiden erst entstehen konnten.4
In der Regel gilt: Meta-Analysen und systematische Reviews liegen an der Spitze der Evidenz-Pyramide. Es folgen randomisierte kontrollierte Studien (RCTs). Danach kommen Kohorten- und Fall-Kontroll-Studien. Labor- und Tierstudien, Fallberichte und Expertenmeinungen (narrative Reviews) liefern die schwächste Evidenz. Je tiefer die Studienebene, desto stärker verzerren Bias und Störeinflüsse die Ergebnisse. Fallberichte und Expertenmeinungen liefern lediglich Hypothesen – sie geben Hinweise, keine verlässlichen Beweise.
Die verschiedenen Fachgebiete in der Medizin stellen unterschiedliche Fragen. Gemäss Burns et al. 2011 sei eine einzige Evidenzhierarchie deshalb nicht für alle Situationen ausreichend. Je nach Art der Frage erfordert das andere Arten von Studien.104 Interventionsstudien liefern stärkere Kausalhinweise, Kohortenstudien stabile Assoziationen, mechanistische Studien biologische Plausibilität.
Beispiel Behandlung vs. Prognose:
Bei Behandlungsfragen z. B. Wirkt Medikament A besser als B? sind randomisierte kontrollierte Studien die beste Evidenz. Bei Prognosefragen z. B. Wie verläuft die Krankheit, wenn wir nichts tun? sind RCTs ungeeignet, weil man keine Behandlungen vergleicht. Hier liefern Kohortenstudien oder systematische Reviews von Kohortenstudien die höchste Evidenz.
Es gibt mehrere Versionen der Evidenz-Pyramide. Das CEBM ordnet etwa die Evidenz-Level gemäss unterschiedlichen Fragen (Therapie, Prävention, Prognose, Diagnose, Ökonomie).105 Sie leisten einen wertvollen Beitrag in wissenschaftlicher Lehre und Ausbildung. Sie finden auch regelmässig Aufnahme in die Arbeiten von CEBM und Cochrane.
Evidenz-Level nach Oxford Centre
for Evidence-Based Medicine
Ia – Höchste Evidenz
Therapie: Systematische Reviews oder Meta-Analysen mehrerer homogener randomisiert-kontrollierter Studien (RCTs).
Prognose: Systematisches Review mehrerer Kohortenstudien mit einheitlichem Startpunkt aus verschiedenen Populationen.
Ib
Therapie: Einzelne randomisiert-kontrollierte Studie (RCT) mit klarer Fragestellung und ausreichender statistischer Stärke. Prognose: Einzelne Kohortenstudie mit einheitlichem Startpunkt, > 80 % Follow-Up und nur einer Population.
IIa / IIb
Kontrollierte Studien ohne Randomisierung, retrospektive Kohortenstudien, Fall-Kontroll-Studien.
IIIa /IIIb
Systematisches Review von Fallstudien. Nicht-experimentelle deskriptive Studien, Fall-Kontroll-Reihen, Querschnittsstudien.
IV
Klinische Erfahrungen, Fallberichte, Berichte von Expertengremien.
V – Niedrigste Evidenz
Expertenmeinungen ohne systematische Datenerhebung (narrative Reviews), Labor- und Tierstudien (in vitro/in vivo).
Quelle: Oxford Centre for Evidence-Based Medicine 2009.
Vereinfachte Darstellung der Evidenz-Level von Therapie/Prävention und Prognose (ohne Level 1c und 2c).
Die Darstellung als Pyramide ist intuitiv und in vielen Fällen zutreffend. Jedoch hat die Darstellungsform auch ihre Schwächen.106 Die Evidenz-Level dienen lediglich als Orientierung. Dies bedeutet, dass Belege der Stufe 4 nicht pauschal auszuschliessen sind. Belege der Stufe 1 gelten auch nicht automatisch als unumstössliche Fakten. Die Ergebnisse jeglicher Studie benötigen sorgfältige und kritische Prüfung.104
Die Verlässlichkeit einer Studie hängt nicht nur vom Studiendesign ab. Nicht jede RCT ist automatisch "besser". Schlecht geplant und/oder durchgeführt, lässt sie auf das gleiche Niveau fallen wie eine gute Kohortenstudie. Beispiele: viele Ausfälle oder schlechte Randomisierung. Denn die Qualität der Evidenz hängt nicht nur vom Studiendesign ab.
Dieses Problem nahm das GRADE-System auf. Es bietet eine Methodik, um die Qualität von Studien besser prüfen zu können:106
Diese Faktoren können jede Studie hoch- oder herunterstufen, egal ob RCT oder Beobachtungsstudie.
Studiengrösse: Mehr Probanden erhöhen die statistische Aussagekraft.
Studiendauer: Längere Studien erfassen Langzeiteffekte besser.
Finanzierung: Unabhängige Finanzierung reduziert Interessenkonflikte.
Endpunkte: Harte Endpunkte (Sterblichkeit) wiegen stärker als Surrogatmarker.
Surrogatmarker bilden Ergebnisse nur indirekt ab. Sie dienen in klinischen Studien als Indikatoren für den Effekt einer Behandlung auf einen patientenrelevanten Endpunkt. So ersetzen sie direkte, oft langwierige Messungen.
Beispiele: Ein sinkender Blutdruck gilt etwa als Hinweis auf seltener auftretende Schlaganfälle. Eine niedrige Viruslast bei HIV signalisiert längere Überlebenszeiten. Cholesterin gilt als Stellvertreter für Herz-Kreislauf-Risiko, Blutzucker für die Entwicklung und Risiken von Diabetes. Solche Marker erleichtern Messungen, ersetzen aber keine Endpunkte. Diese erfassen die tatsächliche Gesundheit oder Lebenszeit.
Murad et al. (2016) argumentieren, dass systematische Reviews und Meta-Analysen keine eigene Evidenzstufe darstellen. Stattdessen sollten sie als Werkzeuge gelten, die vorhandene Studien bündeln und bewerten. Solche Übersichtsarbeiten können sowohl hochwertige als auch minderwertige Evidenz enthalten. Dies sei abhängig von den eingeschlossenen Studien und der Methodik. Deshalb stellen die Autoren ihre Platzierung an der Spitze der Evidenzhierarchie infrage. Sie schlagen vor, diese Arbeiten ausserhalb der Pyramide einzuordnen.106
Für die Kommunikation ausserhalb von Fachpersonen stellen wir eine einfache 3-Stufen-Version vor. Die Ampel spricht sowohl Fachpublikum als auch Betroffene präzise an.
Diese hohe Evidenz liefern zusammenfassende Analysen mehrerer RCTs, systematische Reviews oder Meta-Analysen, sowie grosse randomisierte Studien. Bedingung: ForscherInnen führen sie methodisch einwandfrei durch.
Systematische Reviews sammeln und bewerten Forschungsfragen. Bei klar definierten Einschluss- und Ausschlusskriterien. Die Qualitätsbewertung ist transparent dargelegt. Meist enthält das Review eine Meta-Analyse. Sie berechnet das Gesamtergebnis aus verwendeten Einzelstudien.
Meta-Analysen berechnen aus mehreren Studien statistisch zusammengefasste Effekte. Sie steigern die Präzision, sofern die eingeschlossenen Studien ähnliche Designs und Populationen aufweisen.
Randomisierte kontrollierte Studien (RCTs) teilen Probanden nach dem Zufallsprinzip in Gruppen ein. Sie liefern die zuverlässigsten Zusammenhänge von Ursache und Wirkung. Bedingung: Die Randomisierung erfolgt korrekt, die Studiengrösse reicht aus.
Der Unterschied: Reviews und Meta-Analysen werten bestehende Studien aus; RCTs generieren neue Daten. Beide Wege führen zu hoher Evidenz, falls die methodische Qualität stimmt.
Beobachtungsstudien liefern diese, sofern ForscherInnen grosse Populationen über längere Zeit verfolgen und Störfaktoren sorgfältig berücksichtigen.
Kohortenstudien beobachten eine grosse Bevölkerungsgruppe über Jahre. Der Begriff Kohorte bezeichnet eine homogene Studiengruppe. Im besten Fall erfahren Teilnehmende gleiche Ereignisse zur gleichen Zeit. Zu Beginn weist niemand die untersuchte Eigenschaft auf. Im Zeitverlauf dokumentieren ForscherInnen, wer eine Krankheit entwickelt. Diese Studien identifizieren Risikofaktoren. Sie beweisen leider keine Kausalität.
Fall-Kontroll-Studien vergleichen erkrankte Personen (Fälle) mit gesunden Kontrollen. Forscher prüfen rückblickend, ob bestimmte Risikofaktoren öfter vorkamen. Die Methode ist nützlich bei seltenen Krankheiten. Sie liefern begrenzte Evidenz.
Querschnittsstudien erfassen eine Momentaufnahme von Merkmalen innerhalb einer Population. Sie erfassen statistische Zusammenhänge (etwa: Menschen mit Krankheit X konsumieren mehr Y). Sie belegen keine zeitliche Abfolge und keine kausalen Zusammenhänge.
Grundlagenforschung und Einzelberichte liefern erste Hinweise. Ihre Übertragbarkeit auf menschliche Ernährungsempfehlungen ist begrenzt.
Tierstudien (in vivo) untersuchen Wirkungen im gesamten Organismus. Sie klären biologische Mechanismen auf und weisen auf Wirksamkeit oder Toxizität hin. Die Ergebnisse gelten nicht für den Menschen, da sein Stoffwechsel fundamental abweicht. Beispiel: Die Macadamia-Nuss ist für Hunde und Katzen extrem giftig, für Menschen die zweitbeste Nuss.
Reagenzglasstudien (in vitro) testen Substanzen an isolierten Zellen oder Molekülen. Die ermittelten Wirkmechanismen versagen oft in komplexen Lebewesen.
Narrative Reviews bündeln vorhandene Studien auf Basis der fachlichen Einschätzung der Autorenschaft. Im Gegensatz zu systematischen Reviews fehlen standardisierte Suchstrategien und festgelegte Auswahlkriterien. Diese Schwächen erhöhen das Risiko von Verzerrungen. Darum finden sich die systematischen Reviews in der besten Evidenzklasse und narrative Reviews in der schlechtesten.
Expertenmeinungen und Fallberichte beruhen dagegen auf Einzelbeobachtungen oder subjektiven Einschätzungen. Sie liefern wertvolle Impulse für Hypothesen, ersetzen jedoch keinen wissenschaftlichen Nachweis. Sie liegen am unteren Ende der Evidenzklassen.
Leserinnen und Leser ordnen eine Studie nun leicht einer der drei Kategorien zu. Die Hierarchie ist sofort klar: Vertrauen Sie mehr auf grosse, zusammengefasste oder randomisierte Studien als auf Tierstudien oder Einzelmeinungen.
Trotzdem ist, vorrangig in der Ernährungswissenschaft, eine gewisse Flexibilität nötig. Bestimmte RCTs bleiben in diesem Kontext unmöglich oder unethisch. Beispielsweise lassen sich Menschen nicht 10 Jahre lang auf reine Fastfood-Ernährung randomisieren. Auch wenn negative Folgen sich so wissenschaftlich erfassen liessen, wäre das unethisch. In diesem Fall ist eine mittlere Evidenz aus Kohortenstudien oder Fall-Kontroll-Studien die beste verfügbare Evidenz.
Zudem wirkt Ernährung immer multidimensional. Sie lässt sich selten auf einen einzeln untersuchten Nährstoff herunterbrechen. Deshalb kann eine randomisierte kontrollierte Studie manchmal nur Teile des Wirkspektrums erfassen.
Solange wir den Kontext beachten und uns der rahmenbedingten Einschränkungen bewusst sind, können wir fundierte Urteile fällen.
Zwei methodische Fallstricke verfälschen Ernährungsstudien systematisch: Restverzerrung und ungeeignete Kontrollgruppen.
Restverzerrung bezeichnet unbeachtete Einflüsse, die trotz sorgfältigem Studiendesign bestehen bleiben. Statistische Verfahren oder verfeinerte Auswahlkriterien für Probandinnen und Probanden entfernen z.B. bekannte Störfaktoren wie Rauchen oder Bewegungsmangel. Dieser Schritt bringt den Effekt der untersuchten Ernährung besser zur Geltung oder hilft zumindest dabei. Die Gruppe erscheint als homogen.
Restverzerrung bleibt damit eine grundsätzliche Grenze von Beobachtungsstudien.
Wenngleich Forschende bekannte Störfaktoren statistisch bereinigen, bleiben unbekannte oder schwer messbare Einflüsse bestehen. Beispielsweise verfälschen chronischer Stress, Schlafqualität oder genetische Prädisposition die Ergebnisse weiterhin. Diese Restverzerrung beschreibt Fehlerquellen, die Resultate verändern, obwohl das Studiendesign korrekt erscheint.
Besonders heikel ist es, wenn diese Restverzerrung einen Confounding-Effekt aufweist. Der unbekannte Faktor beeinflusst sowohl die vermeintliche Ursache als auch die gemessene Wirkung. Das erlaubt es, einen Scheinzusammenhang zu erzeugen.
Beispiele:
Kohortenstudien dienen vielfach der Untersuchung von Zusammenhängen zwischen Ernährungsformen und Surrogatmarkern, Krankheitsrisiken oder Mortalitätsraten. Die Forschenden teilen die Probanden dabei häufig in Gruppen wie "vegan", "vegetarisch" oder "Mischkost" ein.
Dieses Vorgehen ist methodisch problematisch, da die Gruppen eine hohe Heterogenität aufweisen. Die vegane Gruppe ist nicht einheitlich. Einige ernähren sich ausgewogen und nährstoffreich, andere essen überwiegend stark verarbeitete Produkte. Ein Teil der Mischkostgruppen nimmt lediglich geringe Mengen tierischer Produkte zu sich. Andere sehr viele. Gleichzeitig spielt eine Rolle, ob insgesamt eher Junkfood dominiert oder ein hoher Anteil an Gemüse und Früchten. Die reine Einteilung nach Ernährungsform lässt grosse Verzerrungen zu. Das schränkt die Aussagekraft der Studie massiv ein. Damit lässt sich auch bewusst das Gegenteil des Erwarteten erreichen.
Aus wissenschaftlicher Sicht ist eine differenzierte Erfassung der tatsächlichen Ernährungsgewohnheiten erforderlich. Food Frequency Questionnaires (FFQ) ermöglichen eine präzisere Untersuchung der Korrelation zwischen bestimmten Lebensmittelkombinationen und gesundheitlichen Parametern. Diese Vorgehensweise reduziert das Risiko von Confounding. Das erhöht die Validität der Ergebnisse im Vergleich zur groben Einteilung nach Ernährungsform.
Fazit
Das Entfernen bekannter Faktoren schafft Klarheit. Allerdings beseitigt es nie alle Verzerrungen. Restverzerrung bleibt damit eine fundamentale Grenze von Beobachtungsstudien. Fewell et al. (2007) schrieben eine gute methodische Erklärung, wie mit Confounding-Effekten umzugehen ist. Auch weshalb diese nie komplett verschwinden.9
"Inappropriate Control Groups" verzerren Vergleiche. Eine unzureichende Vergleichsdiät verzerrt das Ergebnis zugunsten der anderen. Dies belegt nicht den Nutzen der einen, sondern den Schaden der anderen Diät. Das ist eine viel angewandte Täuschung durch industrienahe Menschen.
Die Resonanz von Studien kann einen Hinweis geben auf deren Bedeutung. Nicht aber auf deren Qualität.
Zitationszahlen dienen seit Garfield (1955) als Mass für die Beachtung einer Studie in der Fachliteratur.23 Eugene Garfield verfasste nicht nur den Klassiker zur Index-Methode (Citation Index). Er leitete aus Bradfords Gesetz der Streuung das Garfield-Gesetz ab. Dieses besagt, dass ein Bruchteil der vorhandenen Magazine einen Grossteil aller Zitationen ausmacht.24
Altmetrics (alternative Kennzahlen) erfassen Resonanz jenseits der Fachwelt. Das passiert mittels Medienberichten, Blogbeiträgen, Social-Media-Diskussionen und Policy-Dokumenten. Sie spiegeln nach Priem et al. (2010) den Einfluss einer Studie auf öffentliche Debatten wider.25
Hohe Zitationszahlen oder Altmetrics bestätigen nicht die methodische Qualität. Schwache oder fehlerhafte Arbeiten erhalten gemäss Bornmann (2014) grosse Aufmerksamkeit. Dies gilt besonders bei Ergebnissen, die kontrovers wirken oder stark medienwirksam erscheinen.26
Industrie und verkaufsorientierte Kreise beeinflussten die Ergebnisse von wissenschaftlichen Studien. Lundh et al. (2017) demonstrierten in einer Cochrane-Übersicht eine wichtige Erkenntnis. Industriefinanzierte Studien berichten signifikant mehr positive Resultate als unabhängige Arbeiten.11 Eine aktuelle Analyse von López-Moreno et al. (2025) bestätigte dies: Der Anteil sponsorfreundlicher Resultate liegt bei industriefinanzierten Ernährungsstudien rund viermal höher als bei unabhängigen Arbeiten.13
Selbst Studien der höchsten Evidenzklasse bleiben nicht frei von dieser Beeinflussung. Boutron et al. (2010) untersuchten die Berichterstattung in Top-Journals. Sie belegten, dass rund 40 % aller RCTs und Reviews positive Nebenergebnisse betonten. Dies, obwohl der Haupteffekt ausblieb.10
Sismondo (2008) dokumentierte, wie Pharmaunternehmen durch Ghostwriting und Publikationsplanung Studieninhalte gezielt formen. Dies, um gewünschte Botschaften in der Literatur zu verankern.12 In der öffentlichen Debatte arbeiten industrienahe Stimmen mit diesem Muster. Ernährungsberaterinnen oder Fachleute, die für Branchenorganisationen auftreten, reagieren auf Kritik mit Floskeln: Neuere Studien bestätigen unsere Sichtweise. Belege bleiben aus, konkrete Quellen fehlen. Damit verlagert die Diskussion den Fokus vom Inhalt auf pauschale Behauptungen, die kaum überprüfbar bleiben. Dieses Vorgehen verstärkt die Asymmetrie zwischen gut belegten Analysen und marketingorientierten Aussagen.
In den Medien dominieren industrienahe Stimmen. Kritische Fachleute mit belastbarer Evidenz erhalten wenig Raum, während PR-Botschaften der Branche direkt in Nachrichten einfliessen.
Leider betreiben gewisse Forscher industriefinanzierte Forschung. In einem konkreten Fall veröffentlichte ein Forscher über Jahre hinweg Studien, in denen er Ahornsirup als besonders gesund darstellte. Er bezeichnete ihn als Spitzenlebensmittel. Dazu schrieb er dem Produkt Wirkungen zur Vorbeugung von Krankheiten wie Krebs, Alzheimer und Diabetes zu. Die Aussagen basierten auf Laborversuchen mit konzentrierten Ahornextrakten, nicht auf dem tatsächlichen Verzehr von handelsüblichem Sirup. Zudem arbeitete der Forscher als bezahlter Berater und Werbeträger für die Branche. Diese Vergütung stellt einen klaren Interessenkonflikt dar.14
Eine australische Analyse von Brooks et al. (2024) belegte typische Marketing Strategien. Nachrichtenportale wählten in 80 von 86 Beiträgen über Fast-Food-Ketten markenfreundliche und überwiegend positive Berichterstattung. Dazu gehörten Beiträge mit positiven Schlagzeilen sowie positive Beschreibungen neuer Nahrungsmittelprodukte. Alle Medienbeiträge mit einer markenungünstigen Tendenz (6 von 86) erhielten diese Kennzeichnung, weil sie Kritik von Social-Media-Nutzern an den Produkten der Marken zitierten.15
Soziale Medien fördern die Verbreitung von Fehlinformationen zur Ernährungslehre. Diekman et al. (2023) analysierten in einer Übersichtsarbeit deren massenhafte Verbreitung sowie die Auswirkungen auf die Ernährungsberatung.16
Fazit
Diese Beispiele verdeutlichen, wie stark wirtschaftliche Interessen die wissenschaftliche Kommunikation und die öffentliche Wahrnehmung prägen. Wer Studien zuverlässig einschätzen will, unterscheidet klar zwischen gesichertem Wissen und interessengeleiteter Behauptung. Das bildet die Basis für echtes Verstehen. All diese Aspekte bestimmen gemeinsam, wie stark Evidenz tatsächlich trägt – und wie zuverlässig sie unser Handeln leiten kann.
Wissenschaft wächst durch offengelegte Fehler. Retraction Watch und PubPeer stärken diese Kultur. Offene Datensätze und registrierte Protokolle verhindern nachträgliche Tricks.
Transparente Methoden und sichtbare Interessen erzeugen Vertrauen. Die Bereitschaft zur Fehlerkorrektur bildet das Mass echter Stärke.
Evidenz ist kein Dogma, sondern ein Werkzeug. Sie hilft, Hypothesen zu prüfen und Wissen zu ordnen. Ihre Stärke liegt nicht in der Zahl der Studien, sondern in ihrer Qualität, Offenheit und Reproduzierbarkeit. Wissenschaft bleibt vorläufig – und darin liegt ihre Glaubwürdigkeit.
Verlässliches Wissen entsteht dort, wo Beobachtung, Prüfung und Transparenz zusammenkommen. Wer Evidenz richtig versteht, sucht nicht nach Beweisen, sondern nach Verständnis. Erkenntnis wächst durch Zweifel, nicht durch Gewissheit. Neue Risiken verstärken diese Probleme: Künstliche Intelligenz erleichtert wissenschaftlichen Betrug und erzeugt falsche Evidenz.
Studien zu kennen, ist das eine; sie richtig einzuordnen, das andere. Wer Aussagen zuverlässig bewerten will, benötigt Kriterien. Dieser Textteil bündelt dafür praktische Hilfen, indem er Ihnen eine kurze Checkliste bietet. Die sechs Kernpunkte dienen der Ersteinschätzung der Qualität und Belastbarkeit wissenschaftlicher Ergebnisse. Sie fasst zentrale Kriterien der Studienbewertung zusammen, die wir ausgeführt haben.
Publikationsort und Peer-Review: Seriöse Studien erscheinen in Fachzeitschriften mit Qualitätskontrolle. Journale wie Nature, JAMA, The Lancet oder NEJM prüfen Methoden und Resultate vor der Veröffentlichung. Predatory Journals umgehen jede Kontrolle und veröffentlichen gegen Bezahlung ohne unabhängige Begutachtung. Beall (2012) beschrieb, wie diese Verlage das Open-Access-Modell zu einem Geschäft ohne wissenschaftliche Qualitätssicherung verwandelten. Spätere Analysen kritisierten Bealls Kriterien als unscharf und regional voreingenommen.²¹
Eine aktuelle Übersicht solcher Journale bietet beallslist.net. Die NOAA Library führt unter Journal Evaluation & Predatory Publishing eine zweistufige Bewertung – gelb und rot - und beschreibt auf library.noaa.gov die unterschiedlichen Gründe.
Evidenzstufe: Die Stufen der Evidenz finden Sie weiter oben erläutert. In der Checkliste dienen sie als erster Prüfpunkt. Randomisierte kontrollierte Studien (RCTs), systematische Reviews und Meta-Analysen stehen für starke Evidenz. Beobachtungs- und Tierstudien liefern nur Hypothesen und bieten schwache Evidenz.⁴
Stichprobe und Dauer: Viele Teilnehmende und eine lange Laufzeit erhöhen die statistische Aussagekraft. Korrekte Randomisierung vermeidet Verzerrungen.
Endpunkte: Harte Endpunkte wie Sterblichkeit wiegen stärker als Surrogatmarker wie Blutdruck oder Cholesterin. Fleming & DeMets (1996) warnten, dass Surrogatmarker oft in die Irre führen.²
Widersprüche im Kontext: Eine einzelne Studie liefert keine Sicherheit. Vergleiche mit anderen Arbeiten zum gleichen Thema belegen, ob Ergebnisse stabil bleiben. Übereinstimmungen schaffen Verlässlichkeit.
Interessenskonflikte: Finanzierung prägt Resultate fast immer indirekt. Offen genannte Interessenkonflikte erleichtern die Einordnung.¹³
6-Punkte-Checkliste zur Qualitätseinschätzung
Publikationsort und Peer-Review
Evidenzstufe
Stichprobe und Dauer
Sterblichkeit ist aussagekräftiger als Surrogatmarker
Widersprüche im Kontext
Interessenskonflikte
Die folgenden Beispiele stehen exemplarisch für den Umgang mit Evidenz. Sie verdeutlichen, wo grosse Datensätze überzeugen – und wo methodische Grenzen Klarheit verlangen. Grosse Studien gelten zwar als Goldstandard, doch auch sie sind nicht frei von Verzerrungen. Publikations-Bias, Selektions-Bias oder schwache Vergleichsgruppen verzerren Ergebnisse (vgl. Erklärung oben: Bias-Systematik).
Im Folgenden beleuchten wir einige der einflussreichsten Ernährungsstudien der letzten Jahre. Sie verdeutlichen, dass selbst weithin bekannte und umfangreiche Untersuchungen sowohl Stärken als auch Schwächen aufweisen können. Trotz hoher Evidenzstärke bleibt ein kritischer Blick unverzichtbar. Auch bei Studien mit tausenden Teilnehmenden und hoher medialer Aufmerksamkeit.
Studientyp: randomisierte, kontrollierte Parallelgruppenstudie (hohe Evidenz, grosse RCT).
Die randomisierte kontrollierte Parallelgruppenstudie von Gardner et al. (2018) teilte 609 übergewichtige Erwachsene zufällig in Gruppen ein und begleitete sie 12 Monate. Eine Gruppe ass fettarm (nach Pritikin), die andere kohlenhydratarm (nach Atkins). Primärer Endpunkt: Gewichtsabnahme nach 12 Monaten. Ergebnis: kein signifikanter Unterschied. Die Teilnehmer beider Gruppen verloren rund 5–6 kg.27
Dieses Beispiel illustriert Publikations-Bias: In der öffentlichen Debatte übersahen beide Lager die zentrale Aussage und lenkten die Aufmerksamkeit auf Nebenaspekte. Stattdessen feierten sie ihre eigenen Gewichtsverluste und lenkten die Aufmerksamkeit auf Nebenaspekte. Etwa leichte Vorteile bei Blutfetten. Durch dieses Framing erklärten sie jeweils ihre Diät zum Sieger.
Fazit
Selbst hochwertige RCTs verlieren an Klarheit, sobald Interessengruppen Nebenergebnisse über den primären Endpunkt stellen.
Studientyp: prospektive Kohortenstudie, mittlere Evidenz. Umfang: über 135'000 Erwachsene aus 18 Ländern, mittlere Laufzeit rund 7 Jahre.28
Die ForscherInnen beobachteten den Zusammenhang zwischen Makronährstoffen und Sterblichkeit. Sie erkannten: Menschen mit hohem Kohlenhydratanteil in der Ernährung starben im Untersuchungszeitraum häufiger. In den Medien erschien rasch: Kohlenhydrate töten. Dieses Beispiel verdeutlicht, wie stark Selektions-Bias und Confounding das Resultat prägen.
Das ist zu kurz gedacht: Vorwiegend einkommensschwache StudienteilnehmerInnen wählten zwangsweise extrem kohlenhydratreiche Ernährungsweisen (60 %). Das ist ein problematischer Befund. Diese Gruppe mit hohem Kohlenhydratanteil bestimmte massgeblich den beobachteten Zusammenhang. Heisst: Das höhere Sterberisiko ist sichtbar. Der wahre Grund liegt tiefer. Die Studie deckt ihn auf: Sie demonstriert, dass einkommensschwache Personen unter einem höheren Sterberisiko leiden. Bei geringem Einkommen prägten günstige Kohlenhydrate ihren Speiseplan. Das sind billige Fertigprodukte statt naturnaher Pflanzen.
Das bedeutet: keine naturnahe Pflanzenkost, sondern billige Produkte mit zugesetztem Zucker. Es trat eine kohlenhydratreiche Kost zusammen mit Armut, einseitiger Ernährung und eingeschränktem Zugang zur Gesundheitsversorgung auf. Die statistische Analyse der PURE-Forscher belegt: Ohne den Faktor Armut verschwindet der starke negative Effekt der Kohlenhydrate. Nicht die Kohlenhydrate führten zum früheren Tod, sondern die damit verbundenen Lebensumstände.
Fazit
Beobachtungsstudien liefern Korrelationen, keine Beweise für Ursache und Wirkung. Wer sie vorschnell in Schlagzeilen übersetzt, blendet soziale und ökonomische Hintergründe aus.
Studientyp: randomisierte kontrollierte Cluster-Studie, hochwertige Evidenz (mit methodischen Schwächen). Umfang: 7447 Erwachsene mit hohem kardiovaskulären Risiko in Spanien, Laufzeit etwa 5 Jahre, randomisiert in drei Gruppen.
Estruch et al. (2013) testeten, ob eine mediterrane Ernährung Herz-Kreislauf-Erkrankungen verhindert. Sie teilten ganze Familien statt einzelner Personen den Diätgruppen zu – ein klarer Fehler in der Randomisierung.29
Wissenschaftler um John Ioannidis kritisierten diese Schwächen öffentlich. Ioannidis gilt als einer der bekanntesten Methodenkritiker mit hohem Ansehen. Sie bemängelten insbesondere die Gruppenzuteilung und die ungenügende Vergleichsdiät. Das New England Journal of Medicine zog die Publikation 2018 zurück. Estruch und Team überarbeiteten das Design, analysierten die Daten neu und publizierten die Ergebnisse erneut (Estruch 2018).30
Methodische Schwächen belegen: Selbst hochwertige RCTs unterliegen einem Selektions- und Design-Bias-Risiko. Die mediterrane Ernährung brachte weiterhin Vorteile, schwächer als in der ursprünglichen Version. Viele Medien und Teile der Industrie zitieren bis heute lieber die überhöhten ursprünglichen Zahlen.
Fazit
Diese Beispiele bestätigen: Auch hochwertige RCTs bergen eine Anfälligkeit für Bias. Entscheidend ist, dass Forschende Fehler offenlegen und Korrekturen die Ergebnisse tragfähig halten.
EPIC (European Prospective Investigation into Cancer and Nutrition) startete 1992–1999 in zehn Ländern, mit rund 520'000 Teilnehmenden.
Die EPIC-Oxford-Teilgruppe (UK) rekrutierte 1993–2001 rund 65'000 Personen. Für die BMJ-Analyse (Tong 2019) lagen vollständige Datensätze von 48'188 Teilnehmenden vor.
Der Nachbeobachtungszeitraum beträgt mittlerweile über 30 Jahre (erste Publikationen ab 2002, letzte 2023).
Die EPIC-Oxford-Kohorte verfolgt Teilnehmende über Jahrzehnte. Dies unter realen Lebensbedingungen. Den Gegensatz bilden kurzzeitige Interventionsstudien. Diese Daten dokumentieren Ernährungsgewohnheiten, Krankheitsverläufe und Sterblichkeit in einem westlichen Kontext – ohne Eingriff, hingegen mit hoher Alltagstauglichkeit.
Tong et al. (2019) begleiteten die 48'188 Personen während 18 Jahren. Nach Berücksichtigung sozioökonomischer und lebensstilbedingter Störfaktoren wiesen Fischesser und Vegetarier im Vergleich zu Fleischessern eine um 13 % (Hazard Ratio 0,87, 95 %-Konfidenzintervall 0,77 bis 0,99) bzw. 22 % (0,78, 0,70 bis 0,87) niedrigere Rate an ischämischen Herzerkrankungen auf (P<0,001 für Heterogenität). Dafür hatten Vegetarier eine 20 % höhere Rate an Schlaganfällen als Fleischesser. Der doppelte Befund verdeutlicht, wie Ernährungsvorteile und -risiken über Jahrzehnte ineinandergreifen.41
Appleby et al. (2016) bilanzieren eine ähnliche Gesamtsterblichkeit zwischen Vegetariern und MischköstlerInnen.42 Die Studie von Key et al. (2021) belegt nur minimale Unterschiede zwischen vegetarischer und veganer Ernährung.43
Diese scheinbare Ausgeglichenheit spiegelt eher die Qualität der praktizierten Ernährung als den theoretischen Vorteil pflanzlicher Kost wider. Laut Key et al. (2021) wies jeder zweite untersuchte Veganer einen Vitamin-B12-Mangel auf. Alle Anzeichen deuten auf langfristige Gesundheitsschäden hin. Insbesondere weisen Vegetarier und Veganer ein höheres Schlaganfallrisiko auf. Ein B12-Mangel lässt den Homocysteinspiegel steigen. Das steigert das Schlaganfallrisiko. Weitere Forschung ist notwendig, um diesen Zusammenhang zu untersuchen.43
Bei veganer Ernährung fallen die durchschnittliche Aufnahme und die Plasmakonzentrationen von Vitamin D und Kalzium geringer aus. Diese Werte liegen unter denen von MischköstlerInnen. Das ist vermeidbar. Pflanzenbetonte Ernährung entfaltet ihre Schutzwirkung nur, wenn sie ausgewogen, vielfältig, nährstoffreich und mit ausreichender Bewegung kombiniert ist.
Fazit
EPIC-Oxford liefert keine schnellen Antworten, sondern langfristige Zusammenhänge. Solche Beobachtungen besitzen geringe Kontrolle, allerdings hohe Lebensnähe. Sie verdeutlichen, wie Ernährung im Alltag wirkt, nicht nur im Labor.
Für besonders kritische Leserinnen und Leser: Die folgenden Plattformen bieten unabhängige Einschätzungen – die Cochrane Library für systematische Übersichten, PubPeer für Fachdiskussionen und Retraction Watch für zurückgezogene Studien.
Studien geben oft Endurteile vor. Die eigentliche Wissenschaft entsteht im Nachfeld. Sie lernen, diese Debatten zu verfolgen und Fehlinterpretationen zu entlarven. Hier die wichtigsten Werkzeuge und wie Sie sie konkret anwenden:
1. Der Faktencheck: Stimmen die Kernaussagen? (Mit der Cochrane Library)
Problem: Eine einzelne, neuartige Studie generiert Schlagzeilen. Ist sie verlässlich oder nur ein Ausreisser? Lösung: Die Cochrane Library ist der Goldstandard für systematische Übersichtsarbeiten. Hier fassen internationale Experten relevante Studien zu einer Frage zusammen und bewerten die Gesamtevidenz. Konkrete Aktion für Sie: Geben Sie bei Cochrane den Namen einer Krankheit oder Behandlung ein (z.B. "Vitamin D bei Erkältungen"). Das Ergebnis liefert Ihnen nicht eine Meinung, sondern die zusammengefasste, gewichtete Wahrheit aus oft Hunderten Studien. So entlarven Sie medialen Wirbel (hypes).
2. Der Blick hinter die Kulissen: Hat die Studie methodische Schwächen? (Mit PubPeer)
Problem: Eine Studie erscheint in einem angesehenen Journal. Vielleicht übersehen sogar die Gutachter gravierende Fehler in der Statistik oder Methodik? Lösung: Auf PubPeer üben Wissenschaftler nach der Veröffentlichung anonym Fachkritik an Studien aus. Hier entstehen die ersten schwerwiegenden Zweifel. Konkrete Aktion: Suchen Sie im Fall einer bahnbrechenden Studie (z.B. mit einer vielversprechenden neuen Krebsbehandlung) auf PubPeer nach dem Titel oder der DOI-Nummer. Finden Sie dort kritische Kommentare von anderen Forschern, gilt: Die Evidenz ist mit Vorsicht zu geniessen.
3. Die Fehlerkultur: Ist die Studie widerlegt oder zurückgezogen? (Mit Retraction Watch)
Problem: Eine oft zitierte Studie ist längst widerlegt oder zurückgezogen. Das weiss allerdings praktisch niemand mehr. Lösung: Der Blog Retraction Watch berichtet über zurückgezogene Studien. Oft liegen die Gründe in Datenmanipulation, Fehlern oder Betrug. Konkrete Aktion für Sie: Beim Finden einer älteren, immer noch einflussreichen Studie (z.B. zur Wirkung von Antidepressiva), googeln Sie den Titel zusammen mit Retraction Watch. So stützen Sie Ihre Arbeit auf valide Ergebnisse.
4. Das Fundament: Lernen, wie gute Wissenschaft funktioniert (Mit METRICS)
Problem: Sie stehen vor der Aufgabe, die Qualität von Studien sicher einzuschätzen. Lösung: Das METRICS Center von John Ioannidis forscht darüber, wie Forschung funktioniert (Meta-Forschung) und warum so viele Studien Fehler aufweisen. Konkrete Aktion für Sie: Durchstöbern Sie die METRICS-Website nach einführenden Artikeln oder Vorträgen. Sie lernen dort die grössten Fallstricke der Forschung kennen (z.B. "p-hacking", "Publication Bias") und erreichen so Immunität gegen schlechte Wissenschaft.
Warum ist diese kritische Haltung nötig? Die methodischen Schwächen unterliegen keinem Zufall, sondern bilden ein systemisches Problem.
Kurzzeitige Experimente erfassen Stoffwechselreaktionen, nicht Gesundheit. Erst Langzeitbeobachtungen von Menschen demonstrieren, wie Ernährung, Lebensweise und Umwelt gemeinsam wirken. Sie spiegeln die tatsächlichen Lebensbedingungen wider, unter denen Krankheiten entstehen oder ausbleiben. Diese Art von Beobachtungen verbindet wissenschaftliche Präzision mit gelebtem Alltag.
Solche Daten besitzen keine künstliche Kontrolle – und deshalb besondere Aussagekraft. Sie identifizieren langfristig stabile Muster, frei von Laborartefakten und Kurzzeiteffekten. In der Evidenz-Hierarchie gelten diese Beobachtungen formal als schwach. Tatsächlich bilden sie die einzige Forschungsebene, auf der Menschen so leben, essen und altern, wie sie es wirklich tun. Ihr Wert steigt, wenn sich ihre Ergebnisse mit biologischen Mechanismen und klinischer Erfahrung decken.
Langfristige Evidenz beschreibt das, was kurzfristige Studien verfehlen: den Zusammenhang zwischen Lebensstil und Lebensdauer. Sie misst nicht einzelne Werte, sondern den Verlauf ganzer Biografien. Wer Erkenntnis auf Laborgrössen verengt, verwechselt Forschung mit Routine. Wissenschaft braucht Weitwinkel statt Trichterblick – sonst erfasst sie Symptome, nicht das System. Kurz: Wer diese Perspektive übersieht, verwechselt Statistik mit Leben.
Zahlreiche Untersuchungen dokumentieren langfristige Erfolge pflanzenbasierter Ernährung. Hier ein Beispiel:
Studientyp: Querschnittsanalyse innerhalb einer prospektiven Kohortenstudie (Adventist Health Study-2), mittlere Evidenz. Umfang: über 60'000 Erwachsene, Daten aus den USA und Kanada. Dauer: 2002–2006.
Tonstad et al. (2009) analysierten unterschiedliche Ernährungsweisen31: Veganer, Lacto-Ovo-Vegetarier, Pesco-Vegetarier, Semi-Vegetarier und Nicht-Vegetarier. Ergebnis: Veganer wiesen mit rund 23,6 den niedrigsten BMI auf. Danach folgten Lacto-Ovo-Vegetarier (~25,7), Pesco-Vegetarier (~26,3) und Semi-Vegetarier (~27,3). Nicht-Vegetarier wiesen mit ~28,8 den höchsten BMI auf. Die Prävalenz (Häufigkeit) von Typ-2-Diabetes nahm bei Veganern, Ovo-Lacto-Vegetariern, Pesco-Vegetariern, Semi-Vegetariern und Nicht-Vegetariern in genau dieser Reihenfolge zu.
Die Studie nennt zusätzlich die Einschränkungen (deutsche Übersetzung des englischen Originals):
Unsere Daten basieren auf Querschnittsdaten und erlauben keine kausalen Rückschlüsse. Eine umgekehrte Kausalität erscheint wenig plausibel. Menschen mit Diabetes wechseln ihre Ernährungsweise seltener von vegetarisch zu omnivor. Bei etwa einem Sechstel der Kohorte konnten wir die körperliche Aktivität nicht erfassen: Antworten auf eine oder mehrere der für die Berechnung der MET-Einheiten erforderlichen Fragen fehlten. Und:
Bei Veganern und anderen Vegetariern ist Diabetes möglicherweise aufgrund ihres niedrigeren BMIs seltener erfasst. Der Zusammenhang zwischen Ernährung und Diabetes blieb bei Personen mit einem BMI unter 30 kg/m² und über 30 kg/m² bestehen. Die Aussagekraft der Studie bleibt von diesem Effekt daher weitgehend unberührt.
Die Kohorte repräsentierte die Allgemeinbevölkerung nicht: Viele Teilnehmende besuchten regelmässig kirchliche Veranstaltungen. Da vegetarisch lebende Mitglieder meist weitere kirchliche Grundsätze befolgten, bestanden Unterschiede in wichtigen Diabetes-Risikofaktoren. Die Analyse bestätigte mehrere dieser Abweichungen statistisch. Die Auswertung belegte: Eine nicht-vegetarische (omnivore) Ernährung ist stärker mit schwarzer Ethnizität, geringerem Bildungsniveau, mehr Fernsehkonsum und weniger Schlaf korreliert als eine vegetarische.
Andererseits zählten Nichtvegetarier zu den Jüngeren und berichteten über mehr körperliche Aktivität und Alkoholkonsum. In dieser Kohorte assoziieren diese Verhaltensweisen mit einem geringeren Diabetesrisiko. Trotz Berücksichtigung dieser Faktoren blieb der Zusammenhang zwischen Ernährung und Typ-2-Diabetes deutlich nachweisbar.
Für europäische Leserinnen und Leser gelten diese BMI-Werte als eher hoch, für die USA dagegen als niedrig im Vergleich zur Gesamtbevölkerung.
USA 2002–2006: Durchschnittlicher BMI nach Ernährungsweise
Quelle: Tonstad S, Butler T, et al. 2009.
Die umfangreichste Evidenz belegt einen BMI-Bereich von 18,5 bis 24,9 kg/m² als den mit der höchsten Lebenserwartung. Am günstigsten liegt die statistisch niedrigste Sterblichkeit meist zwischen 20 und 22 kg/m². Dieser Bereich korreliert mit der längsten Phase guter Gesundheit. Wichtiger als eine exakte Zahl ist der Fokus auf ausgewogener Ernährung und regelmässiger Bewegung. Beides fördert langfristig ein stabiles Gewicht im Normalbereich.
Bei veganer Ernährung entscheidet Wissen darüber, ob Menschen die grossen Vorteile für Gesundheit und Umwelt ausschöpfen. Worauf langfristig gesund bleibende Veganerinnen und Veganer achten, erfahren Sie im Beitrag: Veganer essen oft ungesund. Vermeidbare Ernährungsfehler.
Fazit
Systematische Langzeitbeobachtungen liefern die stärksten Belege dafür, dass eine pflanzenbasierte Ernährung mit gesünderem Körpergewicht und niedrigerem Diabetesrisiko verbunden ist.
Neuere Studien aus den Jahren 2023 bis 2025 bestätigen diesen Trend. Sie liefern ergänzende Hinweise, keine Beweise.
Vegan vs. Omnivor (USA, 2025): In einer aktuellen Publikation lag der mittlere BMI bei VeganerInnen bei 23,7, bei Omnivoren bei 26,9 kg/m².32
Vegetarisch vs. Omnivor (Europa, 2024): Eine Arbeit in BMJ Nutrition betonte ebenfalls, dass VegetarierInnen und VeganerInnen durchwegs einen niedrigeren BMI aufwiesen als MischköstlerInnen.33
Metabolische Veränderungen (2022): Die Untersuchung bestätigte, dass sowohl bei Vegetariern wie bei Allesessern die Stoffwechselparameter umso schlechter ausfielen, je höher der BMI lag. In Bezug auf Adipositas wiesen Vegetarier einen besseren Antioxidantienstatus (geringere GGT-Erhöhung) und einen niedrigeren Entzündungsstatus (geringere Ferritin-Erhöhung) auf. Das schützt sie vermutlich vor übergewichtsbedingten Krankheiten.34
Diese Studien umfassen weniger Teilnehmende und reichen in ihrer Aussagekraft nicht an die grossen Querschnittsdaten der Adventist Health Study-2 heran. Sie bestätigen, dass der Trend in den 2020er Jahren anhält: VeganerInnen weisen den niedrigsten BMI auf, Omnivoren den höchsten. In der öffentlichen Wahrnehmung zählt Gefühl stärker als Evidenz. Grosse Studien liefern Daten. Sobald Medien oder Interessen sie zuspitzen, verlieren sie an Klarheit.
Gefühl wiegt schwerer als Evidenz
Einfache Geschichten überzeugen stärker als komplexe Fakten. Emotionale Botschaften sprechen das Belohnungssystem an, Daten nicht.
Deshalb finden übergewichtige und meist kurzlebige Verfechter modischer Diäten Gehör, während nüchterne Wissenschaft kaum Resonanz erzeugt.
Je simpler die Formel, desto grösser die Reichweite – und umso mehr geht das Verständnis verloren.
Wissenschaft sucht nach Mustern. Gleichwohl beginnt jede Entdeckung mit einer Abweichung. Was vom erwarteten Muster abweicht, gilt schnell als Störfaktor. Dabei offenbaren sie, wo bisherige Modelle versagen. Auch in der Onkologie existieren dokumentierte Spontanremissionen. Sie verbleiben meist unbeachtet, weil sie keine kontrollierbaren Erklärungen bieten. Solche Beobachtungen verdeutlichen: Das Leben übertrifft die Aussagekraft von Studien an Komplexität. Sie erinnern daran, dass Evidenz nicht am Rand des Menschlichen endet, sondern dort beginnt. Immerhin: Wenige Forscher nahmen diesen Faden in den 1990er-Jahren auf.
O’Regan & Hirshberg (1993) legten mit dem Spontaneous Remission Project des US-National Cancer Institute eine Sammlung von über tausend Fallberichten vor. Spontanremissionen treten bei über 200 Krankheitsbildern auf. Dies betrifft vorwiegend Krebserkrankungen. Autorin und Autor listeten zu jedem Fall die Originalquelle aus der medizinischen Literatur. Dabei beschrieben sie gemeinsame Merkmale. Darunter fallen plötzliche Infektionen, Fieber oder drastische Ernährungsänderungen. Das Werk gilt bis heute als umfassendste systematische Sammlung solcher Berichte. Im Quellenverzeichnis finden Sie einen Gratis-Zugang zu den mehr als 700 Seiten Inhalt. Laden Sie die einzelnen PDFs zu rund 20 Krankheiten kostenlos herunter.44
Jessy (2011) diskutiert immunologische, infektiöse, hormonelle und psychoneuroimmunologische Faktoren bei dokumentierten Spontanremissionen. Die Hypothese lautet: Die spontane Regression von Krebs ist kein mysteriöses Wunder, sondern ein vom Immunsystem vermittelter Prozess. Thomas Jessy argumentiert, dass das Immunsystem in der Lage sei, Krebs zu bekämpfen ("Immunity"). Spontanheilungen gelten als Belege für diese Fähigkeit. Sie gewinnen nur in bestimmten Fällen die Oberhand über das Tumorwachstum.45
Während Jessy die Grundprämisse lieferte, bietet Papac (1998) die autoritativere und aussagekräftigere Analyse. Seine Arbeit verortet die Immunantwort als einen von mehreren Mechanismen. Noch breiter und differenzierter zeichnet Papac (1996) das Phänomen auf.46
Neuere Arbeiten versuchen, diese Beobachtungen auf molekularer Ebene zu erklären. Chabner (2014) stellte im Oncologist das Programm Exceptional Responders Initiative des National Cancer Institute vor. Es untersucht seltene, unerwartet starke Therapieerfolge, um deren molekulare Grundlagen zu verstehen. Ziel ist, aus den Ausnahmen neue Ansätze für personalisierte Krebsbehandlung abzuleiten.47
Das Buch Erfahrungsheilkunde von Manfred E. Heim geht auf das Thema ein. Grundaussage: Besonders häufig erfolgen Spontanrückbildungen bei wenigen bösartigen Erkrankungen: Maligne Lymphome, maligne Melanome, Nierenzell-Karzinom und kindliche Neuroblastome. Er schätzt Komplettremissionen auf etwa einen pro 80'0000 Fälle. Ob die Erhebung die Dunkelziffer berücksichtigt, bleibt offen.48
Diese Untersuchungen verdeutlichen, dass Spontanremissionen aussergewöhnlich selten auftreten. Die liefern allerdings Hinweise auf bislang unerklärte Mechanismen. Sie erinnern daran, dass medizinische Erkenntnis nicht nur aus Kontrolle entsteht. Sie fördern auch die Aufmerksamkeit für das Unerwartete. Sie erweitern das Verständnis von Evidenz. Wissenschaftliche Erkenntnis beginnt oft dort, wo etablierte Modelle keine Erklärung liefern.
Zahlen wirken nüchtern. Geschichten bleiben haften. Sie wecken Gefühle und beeinflussen Entscheidungen. Deshalb prägen Mythen oft stärker als Fakten.
Gesundheitszustand oder Sterbealter einzelner Personen liefern keinen Beweis für oder gegen eine Ernährungsform – selbst bei Prominenten. Beispiel Dr. Robert Atkins, Begründer der populären Low-Carb-Diät. Er starb 2003 im Alter von 72 Jahren. Laut Berichten wog er rund 116 kg – davon etwa 15 kg als Ödeme (Wassereinlagerungen). Winston Churchill und Helmut Schmidt galten als starke Raucher und tranken regelmässig Alkohol – dennoch erreichten sie ein hohes Alter (Churchill 90, Schmidt 96 Jahre). Anekdoten liefern keine Evidenz. Wissenschaft beruht auf systematischen Studien, nicht auf Einzelschicksalen.
Anekdoten beschreiben einzelne Erfahrungen. Sie beruhen auf Einzelbeobachtungen ohne systematische Dokumentation. Deshalb liefern sie keine repräsentativen Daten und erlauben keine Verallgemeinerung. Sie trennen Zufall nicht von Ursache und begründen keine Kausalität. Häufigkeit und Effektstärke bleiben offen. Anekdoten finden sich nicht in der Evidenzhierarchie. Trotzdem erfüllen Anekdoten eine Funktion. Sie lenken Aufmerksamkeit auf Ungewöhnliches und markieren mögliche neue Phänomene.95,96
Probleme entstehen beim falschen Gebrauch. Dann ersetzen Einzelfälle systematische Daten und selektive Beispiele verzerren Urteile. Prominente Anekdoten verstärken diesen Effekt. Menschen erinnern Geschichten besser als Zahlen. Sie wirken plausibel und prägen sich stark ein. Die Bildhaftigkeit einer Anekdote verdrängt Wahrscheinlichkeit und Relevanz.95,97
Wissenschaft trennt daher strikt: Anekdote als Hinweis. Studie als Nachweis. Gesamtbeweislage als Grundlage.
Fallberichte sind keine Anekdoten.
Sie sind systematisch dokumentiert, methodisch strukturiert, nachvollziehbar und überprüfbar. Fallbeispiele haben eine niedrige, aber echte Evidenz. Als Grundlage dienen sie für Hypothesengenerierung. In der Medizin entstanden viele Fragestellungen aus Fallberichten. Nebenwirkungen fielen zuerst in Einzelfällen auf. Erst danach folgten systematische Untersuchungen.
Das Handwerkszeug zum Studienlesen kennen Sie nun. Warum verzerren selbst Fachleute oder wohlmeinende Autoren komplexe Resultate?
Die Antwort liegt in der Wissenschaftskommunikation und der menschlichen Psyche: Daten verblassen gegen eine packende Geschichte. Eine klare, emotionale Erzählung überstrahlt differenzierte Evidenz. Sie vereinfacht radikal und lenkt die Wahrnehmung in eine Richtung, die den Gesamtbefund nicht trägt. Zum Glück ist das nicht immer so.
Das Dilemma: Eine Botschaft mag inhaltlich richtig liegen, gleichzeitig auf falschen Gründen beruhen. So entsteht die grösste Gefahr: Autoren untergraben eine eigentlich richtige Botschaft. Dies, indem sie diese mit methodisch fragwürdigen Argumenten, mit übertriebenen Schlussfolgerungen oder durch Ausblenden gegensätzlicher Evidenz verteidigen.
Die folgenden Beispiele illustrieren diesen Mechanismus bei einem angesehenen Forscher und einem populären Wissenschaftsvermittler. Beide zielten darauf, eine vermutlich richtige Botschaft kraftvoll zu vermitteln. Dabei überschritten sie die Grenze zur wissenschaftlichen Redlichkeit.
Fazit
Wer auf vereinfachte Erzählungen setzt, ignoriert die Gesamtbeweislage. Tragisch: Die Belege für eine gesunde, pflanzenbasierte Ernährung genügen. Sie benötigen keine Übertreibungen.
Hier folgt, was Kritiker zwei angesehenen Pionieren mit ausgezeichnetem beruflichen Werdegang in der Gesundheitsforschung vorwerfen:
Vom Forscher zum Pionier: Campbell untersuchte als ein Vorreiter den Zusammenhang zwischen Ernährung und Krebs. Die Auswertung der China Study, zusammen mit Sohn, Dr. med. Thomas Campbell, untersuchte ein einzigartiges Datenmaterial aus 65 Regionen in China. Sie rückten Ernährung als wichtigen Faktor zur Gesundheitsforschung ins Bewusstsein. Damit leisteten sie einen wertvollen Beitrag und prägten die Debatte.
Vom Pionier zum Missionar: Im Lauf der Jahre präsentierte Campbell die beobachteten Korrelationen – etwa zwischen tierischem Protein und Krebsraten – leider zunehmend als Kausalität. Die Botschaft gewann an Einfachheit, Eingängigkeit und missionarischem Eifer.
Die Verlockung der klaren Story: Tierisches Protein = Krebs. Eine griffige, aber irreführende Vereinfachung. Sie verschaffte der pflanzenbasierten Ernährung enorme Aufmerksamkeit. Das rückte differenziertere Befunde in den Hintergrund. Widersprüchliche Daten gingen in der Kommunikation unter.
Die China Study verknüpfte epidemiologische Daten von mehr als 65 chinesischen Bezirken mit Laboranalysen und klinischen Parametern. Das ist eine methodisch einmalige Verknüpfung von Lebensstil und Gesundheitsdaten auf Bevölkerungsebene. Nach den Regeln der Evidenz-basierten Medizin gilt solche Forschung als "niedrig rangig", weil sie nicht randomisiert ist.
Gerade solche Vergleiche zwischen Regionen und Ernährungsmustern erfassen das, was kontrollierte Kurzzeitstudien nie einbeziehen. Die Gesamtheit menschlichen Verhaltens über Jahre entscheidet. Diese Verknüpfung demonstriert, wie Ernährung, Kultur und Umwelt gemeinsam auf Gesundheit wirken. Die China Study steht damit für eine andere Form von Evidenz: nicht für statistische Präzision, sondern für Realität im grossen Massstab.
Fazit
Campbell legte wichtige Grundlagen und lenkte den Blick auf Ernährung als Schlüsselfaktor für Gesundheit. Zugleich reduzierte er die Komplexität auf eine einfache Gleichung – und spaltete damit die Debatte. Im Eifer des Gefechts begehen Forschende diesen klassischen Fehler leicht. Aus Wir sehen einen starken Zusammenhang entsteht Wir kennen nun die Ursache.
Dennoch: Die Expertenmeinung bewertet tierisches Protein aus vielen evidenzbasierten Gründen immer kritischer. Insofern traf Campbell einen wahren Kern. Er überzeichnete ihn durch Vereinfachung und Zuspitzung. Diese Reduktion auf einen einzigen Sündenbock spaltete die Debatte. Sie schuf eine scheinbar wissenschaftliche Rechtfertigung für dogmatische Ernährungsempfehlungen. Statt über die Gesamtqualität und Verarbeitung von Nahrungsmitteln zu sprechen, kreiste die öffentliche Diskussion jahrelang um diese vereinfachte Botschaft.
Greger verfolgt im Prinzip denselben Ansatz wie Campbell - methodisch raffinierter.
Der Ansatz: Michael Greger ist Arzt und ein begabter Kommunikator. Mit der Plattform NutritionFacts.org und Büchern wie How Not to Die (2015) und How Not to Age (2023, über 8000 Referenzen) erreichte er Millionen Menschen. Verdienst: Er popularisierte wissenschaftliche Ergebnisse und richtete den Blick vieler Menschen auf die gesundheitlichen Vorteile pflanzenbasierter Ernährung.
Die Schwächen:
Beispiele:
Fazit
Greger leistete Pionierarbeit in der Wissenschaftskommunikation und legte mit How Not to Age ein monumentales Werk vor. Mit dem Verwischen der Evidenzhierarchie und gezieltem Cherry-Picking erzeugte er den Eindruck absoluter Gewissheit. Damit stärkte er zwar die vegane Bewegung, gefährdete zugleich das Vertrauen in die wissenschaftliche Debatte. Trotzdem: Ein Werk von grosser Bedeutung und leichter Lesbarkeit.
Der Ansatz: Denise Mingers ausführliche Kritiken (mit 23 Jahren) an Campbells China Study und an Michael Greger begründeten schnell ihren Ruf. Sie arbeitete präzise heraus, wie Autoren Korrelationen zu Kausalitäten überhöhten oder Daten selektiv nutzten. Damit gewann sie Glaubwürdigkeit als scharfe Analytikerin.
Die Schlagrichtung: Sie nutzte ihre Analysen, um pflanzenbasierte Ernährung abzuwerten und tierische Produkte aufzuwerten. Ihre parteiischen Argumente bildeten oft das Gegenstück zu Campbell und Greger. Sie war evtl. beeinflusst durch typische Fehler in ihrer Zeit als Veganerin. Mehrfach vermuteten Kritiker ihre Nähe zur Fleisch- und Milchindustrie. Sie legte Verbindungen nie offen.
Beispiele:
Mingers Analysen trafen einen wunden Punkt der evidenzbasierten Ernährungskommunikation. Sie legte tatsächliche methodische Schwächen offen. Sie deutete diese allerdings so, als widerlegten sie den gesundheitlichen Vorteil pflanzenbetonter Kost. Ihre Kritik nutzte dieselbe Vereinfachung, die sie anderen vorwarf, mit umgekehrtem Vorzeichen. So geriet die Diskussion über Studienqualität erneut zur Glaubensfrage statt zur Methodendebatte. Darin liegt der Wert ihrer Arbeit: Sie demonstriert unfreiwillig, wie leicht selbst berechtigte Kritik zur Bestätigung eigener Überzeugungen verkommt.
Fazit
Minger entlarvte echte Schwächen bei Campbell, Greger und weiteren Autoren. Sie vertrat keine neutrale Wissenschaftsposition. Ihre Rolle blieb die der Gegenspielerin: Sie verteidigte Tierprodukte und prägte ein Narrativ, das vermutlich im Interesse der Nahrungsmittelindustrie lag. Die Lehre: Diese Debatte artet schnell in Glaubenskrieg aus. Verlässliche Orientierung bietet die Gesamtevidenz, nicht die Agenda einzelner Protagonisten.
Die Wissenschaft wächst stark. Gleichzeitig steigen Druck und Fixierung auf Kennzahlen. Das wirkt sich gemäss Richardson et al. (2025) auf h-Index (misst Produktivität und Einfluss einer Person - von Jorge E. Hirsch), Impact Factor (misst durchschn. Zitierungen von Artikeln einer Zeitschrift) und Rankings aus.53 Forschende sichern Anstellung, Karriere und Forschungsgelder vorrangig via Publikationen. Dieser Druck fördert Fehlverhalten und Betrug, schreiben Vasconez-Gonzalez et al. (2024).54
Gefälschte oder manipulierte Arbeiten nehmen rasant zu. Sabel & Larhammer (2025) schätzen die Zahl allein in der biomedizinischen Literatur auf über 100'000 pro Jahr.55 Die Menge wächst deutlich schneller als echte Forschung. Paper-Mills, Vermittler und gewisse Fachredaktionen liefern industriell erzeugte Fakes. Sie unterlaufen Begutachtungssysteme und schwächen die Glaubwürdigkeit ganzer Fachgebiete, betonen Richardson et al. (2025).53 Gefälschte Publikationen sind oft auch auf der Metadatenebene schwer zu erkennen. Wichtig ist, sie vor der Veröffentlichung zu identifizieren.56
Der Fall von Bharat B. Aggarwal demonstriert die Folgen. Er publizierte über 120 Artikel zu angeblichen Heileffekten von Curcumin. Untersuchungen deckten Bildmanipulationen auf. Zuständige Zeitschriften löschten Dutzende Arbeiten aus ihrer Literaturdatenbank. Trotzdem zitierten Forschende diese Artikel weiter. Eine einzelne Person verzerrte damit Förderströme, Forschungstrends und klinische Erwartungen über Jahrzehnte. Das veröffentlicht Reese Richardson am 30.1.2024.57
Forschungsfälschungen dienen oft den eigenen Interessen (Ruhm und Anerkennung). Manchmal mit verheerenden Folgen. Der Chirurg Paolo Macchiarini versprach spektakuläre Erfolge mit künstlichen Luftröhren durch Transplantate. Doch er fälschte Forschungsergebnisse. Viele seiner behandelten PatientInnen starben (u.a. in Stockholm und Russland). Hier versagten auch Institutionen und Kontrollorgane.61,62
KI-Systeme wie ChatGPT (OpenAI), DeepSeek, Llama, Gemini, Berd etc. unterstützen Recherchen und Textentwürfe. Sie erzeugen plausible, oft jedoch falsche Inhalte. Studien durch Chelli et al. (2024) beweisen hohe Fehlerquoten bei Literaturangaben: GPT-3.5 etwa 40 %, GPT-4 knapp 30 %, Berd über 90 %.58
Majovský et al. (2023) belegten die Fähigkeit von KI-Modellen, täuschend echt wirkende medizinische Manuskripte zu erzeugen. Experten in der Begutachtung bestätigten die hohe Überzeugungskraft der generierten Texte. Ihnen fielen gleichwohl inhaltliche Fehler und Unstimmigkeiten auf.59 Verlage finden zunehmend KI-Texte ohne transparente Kennzeichnung. Die Zahl steigt seit 2023 massiv.54 Ballester (2023) plädierte dafür, die Nutzung von KI in wissenschaftlichen Arbeiten offenzulegen, ähnlich wie andere Methoden auch (doi:10.2196/49323).
LLMs (Large Language Models) helfen bei technischen Beschreibungen oder Dateninterpretationen. Es resultieren überzeugende Fälschungen. Ausser ein seriöser Autor hinterfragt die Arbeit laufend. Der Einsatz von KI-Sprachmodellen (LLM) birgt epistemische Risiken. Für Vasconez-Gonzalez et al. (2024) führt soziale Benachteiligung zu eingeschränktem Zugang zu Wissen. All dies gefährdet die Integrität wissenschaftlicher Publikationen.54
Bernhard A. Sabel warnt in seinem Buch Fake Mafia in der Wissenschaft (2024), dass ein grosser Teil des Betrugs aus der Biomedizin stammt. Dort beeinflusst Evidenz direkte Entscheidungen: Therapien, Leitlinien, öffentliche Gesundheit. Gemäss dem Buch genügt wenig falsches Material, um Vertrauen zu untergraben.60
Die Wissenschaft benötigt Kontrolle, Transparenz und klare Regeln für KI. Ohne strukturelle Reformen wächst die Menge unzuverlässiger Evidenz weiter. Forschung verliert damit ihr Fundament: überprüfbare Wahrheit.
Fazit
Die Versuchung, Evidenz zuzuspitzen, entspringt keinem Zufall, sondern systemischen Zwängen. Die systemischen Zwänge der Evidenzproduktion verkörpern dies in gesteigerter Form.63,64 In der KI-Forschung befeuert ein enormer Karriere- und Finanzierungsdruck einen Hype-Bias.55,65 Parallel dazu instrumentalisieren zunehmend auch kleinste Nahrungsmittelhersteller die Wissenschaft für ihr Marketing.
Durch KI entsteht ein Goldrausch-ähnlicher Wettbewerb.66,67 Der Karrieredruck, mit spektakulären Studien aufzufallen, sowie das Rennen um Venture-Kapital fördern eine systematische Überschätzung von Fähigkeiten.55,64,65 Dieses Umfeld vernachlässigt Reproduzierbarkeit zugunsten medienwirksamer Heilsversprechen.68,69 Der sogenannte Hype-Bias verwandelt komplexe, vorläufige Ergebnisse in scheinbar unmittelbar bevorstehende Durchbrüche.66,67 Die eingängige Erzählung vom „allwissenden KI-Assistenten“ überstrahlt die nüchterne Evidenz der tatsächlichen Limitationen.
Parallel durchdringt eine ähnliche Skrupellosigkeit die gesamte Ernährungswirtschaft, bis in den kleinsten Nischenmarkt. Es geht nicht mehr allein um den klassischen Einfluss grosser Konzerne, sondern um eine flächendeckende Strategie. Auch Kleinsthersteller bedienen sich gezielt platzierter, oft methodisch fragwürdiger Mini-Studien. Sie isolieren Einzelmechanismen aus Zellversuchen und stülpen sie ihren Produkten über. Die Grenze zwischen Marketing und Forschung verschwimmt dabei bewusst und systematisch.63,70,71,72,73,74,75,76
Sowohl die KI-Forschung als auch die Lebensmittelbranche opfern wissenschaftliche Redlichkeit für kurzfristigen Gewinn.63,70,71 Dies in Form von Reputation, Finanzierung oder Marktanteilen. Eine ernste Systemkrankheit entsteht. Die Evidenzproduktion und -kommunikation erkrankt, sobald Karriere- und Vermarktungszwänge überhandnehmen. Sie ersticken dann die Suche nach robusten, wahrhaftigen Erkenntnissen.
Dass es sich um ein global erkanntes Problem handelt, beweist die Stockholmer Deklaration zu KI und der Zukunft der Wissenschaft. Name offiziell: Stockholm Declaration on AI and the Future of Science. Unterzeichnet von führenden Forschungsorganisationen, warnt sie explizit vor den systemischen Risiken. Die Unterzeichner verpflichten sich zu Transparenz, Offenheit und der Priorisierung von Robustheit vor Geschwindigkeit.55 Das ist ein direktes Gegenmodell zu den herrschenden Karriere- und Vermarktungszwängen. Siehe den Aufruf vom 23.5.2025 an dem sich nach einem halben Jahr gut 1800 Forschende beteiligten. Die Zukunft zeigt, ob es eine Alibiübung ist oder Beeinflussung erreicht.
Wer über Studien berichtet, trägt Verantwortung für die Verständlichkeit und die Objektivität der publizierten Aussagen. Wissenschaftliche Ergebnisse verlieren ihren Wert bei irreführender Verkürzung, Dramatisierung oder Kontextverlust. Da kommen die Qualitäten der Gesamtevidenz ins Spiel: Sie integriert widersprüchliche Befunde, statt sie zu leugnen. Sie wägt situativ ab und vergisst nie den Blick auf den Kontext. Daher bleibt sie immer in Bewegung und erlaubt Stabilität ohne Starrheit.
Vereinfachung bleibt notwendig, um das Verständnis von komplexen Daten zu garantieren. Hingegen darf sie nicht zur Verfälschung führen.
Einzelbefunde gehören nicht als Gewissheiten kommuniziert. Glaubwürdige Kommunikation bedeutet, Unsicherheiten offenzulegen, statt sie zu kaschieren. Evidenz benötigt Transparenz, besonders dort, wo sie unbequeme Fragen stellt.
Wissenschaft schafft Vertrauen, indem sie klar zeigt, was sicher ist und was nicht. Ihr Ziel umfasst nicht nur die Methoden, sondern das Verstehen: Menschen sollen erkennen, wie Wissen entsteht und wie sie es in ihrem Leben einordnen.
So entsteht der Rahmen für evidenzbasiertes Denken. Es verbindet Daten mit Urteilskraft. Im nächsten Schritt geht es darum, Evidenz nicht nur zu kennen, sondern klug anzuwenden: mit Verstand, mit Kontext und mit Blick auf das eigene Leben.
Evidenz bildet den Rahmen, in dem verantwortungsvolles Urteilsvermögen entscheidet. Das gilt für Konsumenten ebenso wie für Forschende. Sackett et al. (1996) betonten, dass evidenzbasierte Medizin drei Säulen benötigt: die beste Forschung, klinische Erfahrung und Patientenwerte.4
In der Ernährungsforschung fehlt diese Balance oft. Studien liefern Daten. Deren Bedeutung entsteht bestenfalls später im Kontext. Greenhalgh et al. (2014) warnten vor einem Verkommen der evidenzbasierten Medizin zu schematischer Checklisten-Medizin. Wissenschaft setzt Sachverstand, Mitgefühl und die Fähigkeit voraus, Komplexität zuzulassen. Feinheiten klinischer Beurteilung und persönliche Eigenheiten von Patientinnen und Patienten verdienen Beachtung.35
Wie Gerichte nie auf Basis eines perfekten Beweises entscheiden, sondern Indizien abwägen, bewertet Wissenschaft Wahrscheinlichkeiten. Diese Methode bietet Nachvollziehbarkeit und Überprüfbarkeit. Irrtümer bleiben möglich. Evidenz in Medizin und Ernährung folgt demselben Prinzip. Sie bietet Orientierung, keine Garantie.
Der gesunde Menschenverstand dient als Korrektiv. Ioannidis (2016) mahnte, die Flut statistisch signifikanter, praktisch irrelevanter Ergebnisse nehme zu. Kritisches Urteilsvermögen bleibe unverzichtbar, um aus Daten nützliches Wissen zu gewinnen.22
Ein historisches Beispiel: Ignaz Semmelweis rettete 1847 mit Händedesinfektion unzählige Mütter. Das war, bevor die Bakteriologie eine Evidenz akzeptierte. Das gelang schliesslich dem englischen Chirurgen Joseph Lister. Dies 1867, zwei Jahre nach dem Tod von Semmelweis, der nur Anfeindungen erlebte, keine Änderung des Verhaltens.
Fazit
Evidenz ist unverzichtbar. Ihre Wirkung entsteht im Zusammenspiel mit Urteilskraft, Kontext und Werten. Diese Verbindung schafft belastbares Wissen für die Praxis.
Wir meinen: kaum! Evidenz beschreibt Wahrscheinlichkeiten, keine Gewissheiten. Selbst die besten Meta-Analysen unterscheiden Trends, nicht Wahrheiten. Ernährung bleibt zu komplex, um sie allein mit Daten zu erfassen. Evidenz ist ein zweischneidiges Schwert!
Die Entscheidung zwischen veganer und omnivorer Lebensweise fällt nie allein auf Basis von Studien. Sie berührt Werte, Kultur, Empathie, Genuss und Verantwortung. Evidenz kann Orientierung geben. Evidenz klärt, was wahrscheinlich gesund ausfällt, nicht, was als richtig gilt. Evidenz weist den Weg; die Entscheidung trifft das Gewissen. In der Praxis entscheidet oft das Emotionshirn: Emotion schlägt Evidenz.
Zwischen Wissen und Überzeugung – wo Evidenz auf Werte trifft
Wissenschaft erklärt, was funktioniert, nicht, was sinnvoll oder richtig ist. Evidenz beschreibt Wahrscheinlichkeiten, keine Gewissheiten. Sie misst Daten, nicht Bedeutung. Erkenntnis entsteht erst, wenn Beobachtung auf Urteil trifft und damit Werte bestimmen, wie wir Wissen deuten. Wertentscheidungen betreffen etwa Tierwohl und Klima. Aus Statistik entsteht Verantwortung, aus Information Orientierung.
Evidenz überzeugt nicht automatisch – selbst bei klaren Ergebnissen. Menschen folgen Gewohnheiten, Emotionen und sozialem Druck, statt rational zu handeln. Selbst Fachleute unterliegen kognitiven Verzerrungen: Sie gewichten persönliche Erfahrungen stärker als statistische Daten.
Je stärker eine Empfehlung den Alltag, das Selbstbild oder wirtschaftliche Interessen berührt, desto grösser der Widerstand. Information allein genügt nicht. Sie benötigt Bedeutung, Motivation und Vertrauen. Lediglich Einsicht in die Lebenswirklichkeit verändert Verhalten.
Von der Theorie zur Praxis
Wer verstanden hat, wie Evidenz entsteht – und wie Verzerrungen sie prägen –, kann sie im Alltag gezielter prüfen. Der nächste Schritt führt von der Analyse zur Anwendung: Wie bewerten Sie Studien, prüfen Quellen und erkennen Fehlinformationen? Dieses Wissen befähigt dazu, wissenschaftliche Aussagen nicht einfach zu glauben, sondern sie mit denselben Massstäben zu beurteilen, die Forschende anwenden sollten – unabhängig von Titel, Medium oder Autor.
Wie alle Autorinnen und Autoren bringen wir von der Stiftung Gesundheit und Ernährung Schweiz eigene Überzeugungen und Vorlieben mit. Vollständige Neutralität ist in der Ernährungsforschung selten erreichbar. Zu viele Faktoren spielen hinein – persönliche Erfahrungen, Werthaltungen, kulturelle Prägungen, Sympathien oder Abneigungen gegenüber bestimmten Nahrungsmitteln.
Forschung selbst ist nie vollkommen frei von Interessen. Finanzierung, Studiendesign und Interpretation bleiben anfällig für bewusste oder unbewusste Beeinflussung. Selbst systematische Reviews spiegeln die Handschrift ihrer Autorenteams wider. Wer absolute Objektivität verspricht, untergräbt Glaubwürdigkeit.
Transparenz und klare Regeln helfen, Verzerrungen zu mindern:
Priorität der Evidenzhierarchie: Systematische Reviews und grosse RCTs besitzen Vorrang vor Beobachtungsstudien und Grundlagenforschung.
Suche nach Widersprüchen: Wir suchen aktiv nach Studien, die unserer Schlussfolgerung widersprechen, und integrieren sie.
Transparenz der Limitationen: Bei wichtigen Studien benennen wir Stärken und Schwächen.
Kontext statt Dogma: Wir erklären Mechanismen, geben keine simplen Essregeln.
Unsere fünf Regeln zusammengefasst: Vertraue der Hierarchie, suche den Widerspruch, bleibe transparent, denke in Zusammenhängen, setze evidenzbasierte Daten vor anekdotische Erzählungen.
Viele Ernährungsratgeber bestehen aus lose angehäuften Fakten ohne überprüfbare Belege. Andere zitieren Quellen, ohne klaren Bezug zur jeweiligen Aussage. Lesende erkennen den Wahrheitsgehalt nicht. Einige Autorinnen und Autoren nutzen unpassende Studien oder deuten Ergebnisse um, damit sie ihre These stützen. Besonders problematisch ist der unkritische Einsatz von Quellen aus KI-Datenbanken.
Nur Quellenangaben direkt bei der Aussage lassen eine einfache Überprüfung zu. Am zuverlässigsten funktionieren hochgestellte Zahlen im Text, die auf das Quellenverzeichnis am Ende verweisen. In grösseren Werken pro Kapitel.
Bei zentralen Aussagen steigert eine kurze Zusatzangabe die Transparenz. Meist steht die Autorenschaft, gefolgt vom Jahr in Klammern. Ziel: den Lesefluss wenig zu stören und Transparenz zu wahren.
Auf unserer Website diet-health.info stehen vollständige Zitate im Quellenverzeichnis. Wir verwenden die Vancouver-Zitierweise, da sie im medizinischen Bereich Standard ist. Ein praktisches Hilfsmittel ist Mick Schroeder’s Citation Generator, der das Vancouver-Zitat erstellt. PubMed nutzt teils leicht abweichende Formen, die wir gegebenenfalls übernehmen. Dort finden Sie DOI und Link zur Originalstudie.
Ein Mouseover im Quellenverzeichnis blendet bei uns DOI und relevanten Textausschnitt aus der Originalquelle ein. Liegt der Volltext hinter einer Paywall, bleiben Abstract und Kernaussage sichtbar.
Wer einen Fehler entdeckt, kann uns über diet-health.info informieren. Danach verbessern wir Folgeauflagen und erhöhen die Zuverlässigkeit. Nun thematisieren wir die Wirkung: wie Geschichten Urteile prägen und Fakten verdrängen.
Fazit
Wir legen unsere Kriterien und Quellen offen und beziehen widersprüchliche Resultate mit ein. Das erlaubt Leserinnen und Lesern, unsere Argumente kritisch zu prüfen, statt sie direkt zu übernehmen. Wir erklären Zusammenhänge und Mechanismen, keine anekdotischen Geschichten. Vereinfachende Pauschalaussagen vermeiden wir. Unser Ziel heisst nicht Wissen vermitteln, sondern Verstehen fördern.
Evidenz endet nicht im Kopf, sondern im Verhalten. Sie entfaltet ihren Wert erst, wenn Einsicht in Handlung übergeht.
| 1. | 🞽 Narratives Review / Methodologischer Essay Kommentar: Surrogat-Endpunkte werden genutzt, um Kosten und Dauer klinischer Studien zu reduzieren. Textstelle: “There has recently been great interest in the development of alternative outcomes, or surrogate end points, to reduce the cost and shorten the duration of phase 3 trials.” Erklärung: Da klinische Endpunkte oft teuer und langwierig sind, sucht man nach Ersatzmessgrössen, die schneller und günstiger zu erheben sind.
Definition von Surrogat-Endpunkten Erkenntnis: Surrogat-Endpunkte sind Laborwerte oder körperliche Zeichen, die stellvertretend für klinisch bedeutsame Endpunkte stehen. Textstelle: “A surrogate endpoint of a clinical trial is a laboratory measurement or a physical sign used as a substitute for a clinically meaningful endpoint that measures directly how a patient feels, functions or survives. changes induced by a therapy on a surrogate endpoint are expected to reflect changes in a clinically meaningful endpoint.” Erklärung: Sie sollen anzeigen, ob eine Therapie wirkt – etwa durch Veränderungen im Blutbild oder Tumorgrösse – ohne direkt das Überleben oder Wohlbefinden zu messen.
Surrogat ist nicht gleich Ersatz Erkenntnis: Eine Korrelation mit dem klinischen Endpunkt reicht nicht aus – der Surrogat-Endpunkt muss die Wirkung der Therapie auf den echten Endpunkt vorhersagen. Textstelle: A correlate does not a surrogate make. It is a common misconception that if an outcome is a cor relate (that is, correlated with the true clinical out come) it can be used as a valid surrogate end point (that is, a replacement for the true clinical outcome). Erklärung: Nur weil ein Surrogat mit dem klinischen Ergebnis zusammenhängt, heisst das nicht, dass es als Ersatz taugt. Es muss die Wirkung der Behandlung auf das echte Ergebnis abbilden.
Idealszenario für Surrogat-Endpunkte Erkenntnis: Surrogat-Endpunkte sind am zuverlässigsten, wenn sie den einzigen kausalen Pfad zur klinischen Wirkung darstellen. Textstelle: “The surrogate is in the only causal pathway of the disease process, and the intervention's entire effect on the true clinical outcome is mediated through its effect on the surrogate.” Erklärung: Wenn die Therapie ausschliesslich über das Surrogat wirkt, kann dieses den echten Endpunkt gut vorhersagen – aber selbst dann sind Messfehler oder kurzfristige Effekte problematisch.
Risiko von Fehleinschätzungen Erkenntnis: Surrogat-Endpunkte können die Wirkung einer Therapie über- oder unterschätzen. Textstelle: “The intervention's effect on the true clinical end point could be underestimated if there is considerable noise in the measurement of effects on the surro gate end point. The effect on the true end point could be overestimated if the effect on the surro gate, although statistically significant, is not of suf ficient size or duration to meaningfully alter the true clinical outcome. This overestimation could readily arise, for example, in the ongoing evaluation of protease inhibitors in HIV-infected patients, in which effects on the surrogate end point (viral RNA levels in the peripheral blood) are substantial but of only short duration." Erklärung: Ein signifikanter Effekt auf das Surrogat bedeutet nicht automatisch einen relevanten klinischen Nutzen – etwa bei HIV-Therapien mit kurzfristiger Senkung der Viruslast.
Surrogat-Endpunkte versagen oft bei der Vorhersage klinischer Effekte Erkenntnis: Surrogat-Endpunkte spiegeln häufig nicht die tatsächlichen klinischen Auswirkungen einer Behandlung wider. Die plausibelste Erklärung für das Versagen von Surrogaten sind unbeabsichtigte Wirkungen der Therapie, die unabhängig vom Krankheitsprozess auftreten. Textstelle: “Effects on surrogate end points often do not predict the true clinical effects of interventions. Al though there are many explanations for this failure, such as the existence of causal pathways of the disease process that are not mediated through the surrogate end point and that might be influenced differently by the intervention, the most plausible explanation is usually that the intervention has unintended mechanisms of action that are inde pendent of the disease process. These unintended mechanisms can readily cause the effect on the true clinical outcome to be inconsistent with what would have been expected solely on the basis of evaluation of surrogate end points. These mechanisms are in sidious because they are often unanticipated and unrecognized.” Erklärung: Auch wenn ein Surrogat positiv beeinflusst wird, heisst das nicht, dass die Therapie dem Patienten tatsächlich hilft – etwa durch längeres Überleben oder bessere Lebensqualität. Diese Nebenwirkungen können das klinische Ergebnis negativ beeinflussen – selbst wenn das Surrogat eine Verbesserung zeigt.
Validierung erfordert grosse Studien und tiefes Verständnis Erkenntnis: Die Validierung von Surrogaten ist komplex, erfordert grosse Stichproben und ein tiefes Verständnis der Krankheitsmechanismen. Textstelle: “Proper validation of surrogates also requires an in-depth understanding of the causal pathways of the disease process as well as the intervention's intended and unintended mechanisms of action.” Erklärung: Solche Erkenntnisse sind selten verfügbar – was die zuverlässige Nutzung von Surrogaten stark einschränkt.
Surrogat-Endpunkte sind am besten in Phase-2-Studien aufgehoben Erkenntnis: Surrogat-Endpunkte sollten vor allem in frühen Studienphasen eingesetzt werden, um vielversprechende Therapien zu identifizieren. Textstelle: “Surrogate end points should be used where they perform best—in screening for promising new therapies through evaluation of biological activity in preliminary phase 2 trials.” Erklärung: In Phase-2-Studien können Surrogaten helfen, Kandidaten für grössere Studien auszuwählen – aber in Phase-3-Studien sollten echte klinische Endpunkte im Vordergrund stehen. DOI: 10.7326/0003-4819-125-7-199610010-00011 Study: weak evidence | Fleming TR, DeMets DL. Surrogate end points in clinical trials: are we being misled? Ann Intern Med. 1996;125(7):605–613. |
| 2. | 🞽 Narratives Review / Methodologischer Essay Einfluss der Endpunktwahl auf Studienqualität “The selection of the primary ‘endpoint’ or ‘outcome measure’ has considerable influence on the reliability and interpretability of clinical trials intended to evaluate the benefit-to-risk profile of an intervention.” Erklärung: Die Wahl des primären Endpunkts beeinflusst massgeblich, wie aussagekräftig und vertrauenswürdig eine klinische Studie ist. Ein schlecht gewählter Endpunkt kann zu Fehlinterpretationen führen.
Klinisch relevante Endpunkte “The most important characteristic in guiding the selection of the primary endpoint in definitive trials is that effects on such an endpoint should provide reliable evidence about whether the intervention provides clinically meaningful benefit.” “Thus, the primary outcome measure in definitive trials should be ‘a clinical event relevant to the patient’, or an endpoint that ‘measures directly how a patient feels, functions or survives’ …” Erklärung: Der primäre Endpunkt sollte direkt zeigen, ob eine Behandlung dem Patienten wirklich hilft – etwa durch Verbesserung von Lebensqualität, Funktion oder Überleben.
Surrogat-Endpunkte und deren Validierung “A surrogate endpoint is an outcome measure ‘used as a substitute for a clinically meaningful endpoint...changes induced by a therapy on a surrogate endpoint are expected to reflect changes in a clinically meaningful endpoint’ .” Erklärung: Surrogat-Endpunkte sind Ersatzmessgrössen, die stellvertretend für echte klinische Ergebnisse verwendet werden. Ihre Aussagekraft muss jedoch sorgfältig validiert werden.
Definition von Biomarkern “They will be called biomarkers, and ‘include physiological measurements, blood tests and other chemical analyses of tissue or bodily fluids, genetic or metabolic data, and measurements from images’ .” Erklärung: Biomarker sind objektive Messgrössen biologischer Prozesse – etwa Blutwerte, genetische Daten oder Bildgebung – und dienen oft als Grundlage für Surrogat-Endpunkte.
Korrelation ≠ Kausalität “However, such evidence about correlations does not allow one to understand the true nature of causality. Was the longer survival duration in responders causally induced by the antitumor effects of the intervention, or did the treatment-induced tumor response simply allow identification of the immunologically or inherently stronger patients who both responded and lived longer because of their inherently better status?” Erklärung: Nur weil ein Biomarker mit einem klinischen Ergebnis korreliert, heisst das nicht, dass er kausal dafür verantwortlich ist – ein häufiger Trugschluss in der Forschung.
Korrelation kann irreführend sein “Although the effect of an intervention on a biomarker does provide direct evidence regarding biological activity, such evidence could be unreliable regarding effects on true clinical efficacy measures even when the biomarker is strongly correlated with these clinical efficacy measures in natural history observations.” Erklärung: Auch starke Korrelationen zwischen Biomarkern und klinischen Endpunkten können täuschen, wenn der Biomarker nicht Teil des Krankheitsmechanismus ist.
Biomarker können auch ohne kausalen Zusammenhang nützlich sein “For some of these roles, the biomarker can be used to effectively achieve the intended objective even if it is not on a pathway through which the disease process causally induces risk of symptoms or mortality.” Erklärung: Für Diagnose oder Prognose reicht oft eine Korrelation – ein kausaler Zusammenhang ist nicht zwingend notwendig.
Zwei besonders anspruchsvolle Einsatzbereiche für Biomarker “The greatest clinical utility of biomarkers might be in the two clinical settings where it can be most challenging to justify their validity and reliability. These two settings are the use as surrogate endpoints in place of clinical efficacy measures in definitive trials, or the use to achieve enrichment when one expects greater effects with interventions in specific groups of subjects (i.e., effect modification).” Erklärung: Besonders heikel ist der Einsatz von Biomarkern als Surrogat-Endpunkte oder zur Identifikation von Patientengruppen mit erhöhtem Therapieerfolg.
Risiken bei Zulassung basierend auf Surrogat-Endpunkten “It should not be surprising, then, that agents receiving regulatory approval using efficacy assessments based on surrogate endpoints are more vulnerable to having clinically unacceptable safety issues discovered during the post-marketing period.” Erklärung: Medikamente, die auf Basis von Surrogaten zugelassen werden, bergen ein erhöhtes Risiko für spätere Sicherheitsprobleme.
Motivation für Biomarker-Nutzung: Zeit und Effizienz “Using biomarkers as surrogate endpoints often is motivated by interests to reduce the size and duration of definitive clinical trials, with the hope that this will allow more timely evaluation of the benefit-to-risk profile of experimental interventions…” Erklärung: Biomarker werden oft gewählt, um Studien schneller und kostengünstiger durchzuführen – was jedoch Risiken birgt.
Wichtigkeit evidenzbasierter Rechtfertigung “However, a rigorous evidence-based justification should be provided in any setting where use of biomarkers as surrogate endpoints is proposed because the scientific evaluation of benefit and risk needs to be not only timely but also valid and reliable.” Erklärung: Der Einsatz von Biomarkern als Surrogat muss immer durch solide wissenschaftliche Daten gestützt sein – sonst drohen Fehleinschätzungen. DOI: 10.1002/sim.5403 Study: weak evidence | Fleming TR, Powers JH. Biomarkers and surrogate endpoints in clinical trials. Stat Med. 2012;31(25):2973-2984. |
| 3. | ● Handbuch "A systematic review attempts to collate all the empirical evidence that fits pre-specified eligibility criteria in order to answer a specific research question. It uses explicit, systematic methods that are selected with a view to minimizing bias, thus providing more reliable findings from which conclusions can be drawn and decisions made." Kommentar: DOI: 10.1002/9781119536604 Book | Higgins JPT, Thomas J, et al. (eds). Cochrane Handbook for Systematic Reviews of Interventions. 2nd ed. Glasgow: Wiley; 2019. |
| 4. | 🞽 Narratives Review / Konzeptionelles Grundlagenpapier Dieser kurze Text begründete den Begriff der evidenzbasierten Medizin. Er betont, dass Daten nur im Zusammenspiel mit Erfahrung und Werten nützlich sind – eine Grundidee, die sich durch den gesamten Beitrag zieht. “Evidence based medicine is the conscientious, explicit and judicious use of current best evidence in making decisions about the care of individual patients. The practice of evidence based medicine means integrating individual clinical expertise with the best available external clinical evidence from systematic research.” “Good doctors use both individual clinical expertise and the best available external evidence, and neither alone is enough.” Weitere Aussagen: EBM ist die bewusste, explizite und umsichtige Nutzung der besten verfügbaren Evidenz für Entscheidungen in der Patientenversorgung. “Evidence based medicine is the conscientious, explicit, and judicious use of current best evidence in making decisions about the care of individual patients.”
EBM bedeutet nicht, klinische Erfahrung zu ignorieren – sie wird mit wissenschaftlicher Evidenz verbunden. “Good doctors use both individual clinical expertise and the best available external evidence, and neither alone is enough.”
EBM ist kein starres Schema, sondern ein individueller, patientenzentrierter Prozess. “Evidence based medicine is not ‘cookbook’ medicine. Because it requires a bottom-up approach that integrates the best external evidence with individual clinical expertise and patients’ choice, it cannot result in slavish, cookbook approaches to individual patient care.”
Auch andere Studiendesigns und klinische Beobachtungen können wertvolle Evidenz liefern. Evidence based medicine is not restricted to randomised trials and meta-analyses. It involves tracking down the best external evidence with which to answer our clinical questions. To find out about the accuracy ofa diagnostic test, we need to find proper cross sectional studies of patients clinically suspected of harbouring the relevant disorder, not a rando mised trial. For a question about prognosis, we need proper follow up studies of patients assembled at a uniform, early point in the clinical course oftheir disease. And sometimes the evidence we need will come from the basic sciences such as genetics or immunology. It is when asking questions about therapy that we should try to avoid the non-experimental approaches, since these routinely lead to false positive conclusions about efficacy. Because the randomised trial, and especially the systematic review of several randomised trials, is so much more likely to inform us and so much less likely to mislead us, it has become the "gold standard" for judging whether a treatment does more good than harm. However, some questions about therapy do not require randomised trials (successful interventions for otherwise fatal conditions) or cannot wait for the trials to be conducted. DOI: 10.1136/bmj.312.7023.71 Study: weak evidence | Sackett DL, Rosenberg WMC, et al. Evidence based medicine: what it is and what it isn’t. BMJ. 1996;312(7023):71–72. |
| 5. | 🞽 Narratives Review / Methodologischer Essay Kommentar:
Definition und Wirkung von Selection Bias “The common consequence of selection bias is that the association between exposure and outcome among those selected for analysis differs from the association among those eligible.” Diese Aussage zeigt, dass Studienergebnisse verzerrt sein können, wenn die untersuchte Gruppe nicht repräsentativ für die Gesamtpopulation ist – etwa weil gesundheitsbewusste Menschen sich selbst selektieren.
Volunteer Bias / Selbstselektion “Figures 6a–d can also represent a study in which C is agreement to participate (yes = 1, no = 0), E is cigarette smoking, D is coronary heart disease, U is family history of heart disease, and U* is healthy lifestyle.” “Bias will be present if the study is restricted to those who volunteered or elected to participate (C = 1).” Hier wird explizit beschrieben, dass ein „healthy lifestyle“ (U*) sowohl die Teilnahme an der Studie als auch das Verhalten beeinflusst – was zu einer Verzerrung führt, wenn nur Freiwillige untersucht werden.
Healthy Worker Bias “Figures 6a–d can also describe a bias that could arise when estimating the effect of a chemical E [...] The underlying unmeasured true health status U is a determinant of both death (D) and of being at work (C).” Auch hier wird gezeigt, dass gesündere Menschen eher Teil der untersuchten Gruppe sind – was zu einer systematischen Verzerrung führt. DOI: 10.1097/01.ede.0000135174.63482.43 Study: weak evidence | Hernán MA, Hernández-Díaz S, Robins JM. A structural approach to selection bias. Epidemiology. 2004;15(5):615–625. |
| 6. | 🞽 Narratives Review / Methodologischer Essay Kommentar:
Healthy User effect The healthy user effect is best described as the propensity for patients who receive one preventive therapy to also seek other preventive services or partake in other healthy behaviors. Patients who choose to receive preventive therapy may exercise more, eat a healthier diet, wear a seatbelt when they drive, and avoid tobacco. As a result, an observational study evaluating the effect of a preventive therapy (e.g., statin therapy) on a related outcome (e.g., myocardial infarction) without adjusting for other related preventive behaviors (e.g., healthy diet or exercise) will tend to overstate the effect of the preventive therapy under study. The healthy user effect has been widely cited as a likely source of bias in observational studies of HRT. Studies indicate that women who took HRT were more likely to engage in healthy behaviors such as regular exercise, a healthy diet, abstinence from alcohol, and maintenance of a healthy weight as compared to non-users. The apparent protective effect of HRT on cardiovascular disease likely reflects these unmeasured differences in patient characteristics. Kernaussage: Menschen, die eine präventive Massnahme ergreifen (z. B. Statine einnehmen), leben oft generell gesünder – sie treiben Sport, essen besser, rauchen weniger. Studien überschätzen dadurch den Nutzen der Massnahme, weil sie andere gesunde Verhaltensweisen nicht mitberücksichtigen. Das Beispiel Hormontherapie HRT illustriert dies: Beobachtungsstudien zeigten, dass HRT das Risiko für Herzkrankheiten senkt. Spätere RCTs (z. B. Women’s Health Initiative) widerlegten das – der vermeintliche Nutzen war auf gesündere Lebensweise der HRT-Nutzerinnen zurückzuführen.
Healthy-Adherer-Bias „Patients who adhere to one chronic medication are more likely to adhere to other therapies and more likely to receive recommended cancer screening tests and immunizations.“ Kernaussage: Menschen, die Medikamente regelmässig einnehmen, sind auch sonst gesundheitsbewusster. Das führt zu einer Verzerrung, wenn Studien den Nutzen von Medikamenten anhand der Adhärenz bewerten.
Funktionelle Einschränkungen als Confounder „Observational studies that do not account for functional status or cognitive impairment will overstate the effect of a preventive therapy if sicker patients disproportionately do not receive preventive therapies.“ Kernaussage: Kranke oder eingeschränkte Menschen nehmen seltener an Präventionsmassnahmen teil. Studien, die das nicht berücksichtigen, überschätzen den Nutzen der Massnahme.
Selektive Verschreibung „Physicians frequently decide not to prescribe preventive therapy to patients who are frail or who have terminal or acute illness…“ Kernaussage: Ärzte verschreiben Präventionsmassnahmen eher gesunden Patienten. Das führt zu einer systematischen Verzerrung in Studien, die den Nutzen solcher Massnahmen untersuchen.
Methoden zur Bias-Korrektur „New user designs, active comparators, improved statistical adjustment, and sensitivity analyses…“ Empfohlene Strategien:
DOI: 10.1007/s11606-010-1609-1 Study: weak evidence | Shrank WH, Patrick AR, Brookhart MA. Healthy user and related biases in observational studies of preventive interventions: a primer for physicians. J Gen Intern Med. 2011;26(5):546–550. |
| 7. | 🞽 Systematisches Review
Beleg für Publikations-Bias “Empirical research consistently suggests that published work is more likely to be positive or statistically significant (P<0.05) than unpublished research.” “Study publication bias will lead to overestimation of treatment effects; it has been recognised as a threat to the validity of meta-analysis and can make the readily available evidence unreliable for decision making.” “Twelve of the included empirical studies demonstrate consistent evidence of an association between positive or statistically significant results and publication. They suggest that studies reporting positive/statistically significant results are more likely to be published and that statistically significant outcomes have higher odds of being fully reported.” Five of the empirical studies that examined the association between publication and statistical significance found that studies with statistically significant results were more likely to be published than those with non-significant results. One empirical study found that studies with statistically significant results were more likely to be submitted for publication than those with non-significant results. “Ioannidis et al. found that positive trials were submitted for publication more rapidly after completion than negative trials (median 1 vs 1.6 years, p <0.001) and were published more rapidly after submission (median 0.8 vs 1.1 years, p <0.04).” Diese Textstellen zeigen klar, dass Studien mit positiven Ergebnissen bevorzugt veröffentlicht werden, was zu einer verzerrten Wahrnehmung des Nutzens führen kann. Wenn du magst, kann ich dir auch eine kurze Zusammenfassung oder ein Zitat für eine Präsentation oder ein Paper formulieren. DOI: 10.1371/journal.pone.0066844 | Dwan K, Gamble C, Williamson PR, Kirkham JJ. Systematic review of the empirical evidence of study publication bias and outcome reporting bias. PLoS One. 2013;8(7):e66844. |
| 8. | 🞽 Narratives Review / Methodologischer Essay Kommentar: It is generally accepted that comparative studies which attempt to retrospectievely ascertain exposure through interviewing techniques may be subject to bias due to differential recall, and case-control studies which do not validate interview data are frequently criticized on this basis. Recall bias may be thought of as a form of differential misclassification bias and the risk estimate may be biased away from or towards the null. Past exposures may be more vivid or meaningful to cases, possibly becasue of their awarness of potential risk factorws for their condition or because of repeated interviewing by physicians. DOI: 10.1016/0895-4356(90)90060-3 Study: weak evidence | Coughlin SS. Recall bias in epidemiologic studies. J Clin Epidemiol. 1990;43(1):87–91. |
| 9. | 🞽 Simulationsstudie (methodologische Primärforschung) Kommentar: Confounding ist kein „Fehler“, den man einfach rausrechnen kann, sondern ein Hinweis darauf, wie komplex kausale Zusammenhänge sind. Confounding verschwindet nicht einfach, weil es ein strukturelles Problem in der Datenanalyse ist, kein technisches. Es entsteht, wenn ein Drittmerkmal sowohl mit der Exposition als auch mit dem Ergebnis assoziiert ist und dadurch die wahre Beziehung zwischen beiden verzerrt. Textstellen: Measurement error in explanatory variables and unmeasured confounders can cause considerable problems in epidemiologic studies. It is well recognized that under certain conditions, nondifferential measurement error in the exposure variable produces bias towards the null. Measurement error in confounders will lead to residual con founding, but this is not a straightforward issue, and it is not clear in which direction the bias will point. Unmeasured confounders further complicate matters. There has been discussion about the amount of bias in exposure effect estimates that can plausibly occur due to residual or unmeasured confounding. This study highlights the need to perform sensitivity ana lyses to assess whether unmeasured and residual confound ing are likely problems. We have shown that unmeasured confounders have a cumulative effect on the bias of expo sure effect estimates. The possibility of the presence of several unmeasured confounders should be taken into ac count when performing sensitivity analyses. It may not be enough to state that a single unmeasured confounder would need an implausibly large odds ratio to remove the observed effect. Several unmeasured confounders with small or mod erate effects may be able to produce the same effects. Sen sitivity analysis methods for assessing the possible effects of selection bias, misclassification of covariates, and unmea sured confounding have been proposed and illustrated by Greenland (41) and Lash and Fink (42). The effect of measurement error on exposure effect esti mates should be explored, either by adjusting the estimates based on knowledge of the likely measurement error or by performing sensitivity analyses. Of course, the ideal circum stance is that the variables are measured without error, but this is unlikely to occur in reality. While efforts should be made to minimize measurement error, the measurement er ror that has occurred should be quantified and used in the f inal effect estimate. DOI: 10.1093/aje/kwm165 | Fewell Z, Davey Smith G, Sterne JA. The impact of residual and unmeasured confounding in epidemiologic studies: a simulation study. Am J Epidemiol. 2007;166(6):646-655. |
| 10. | 🞽 methodologische empirische Studie: Querschnittsstudie (cross-sectional study) von publizierten randomisierten kontrollierten Studien (RCTs). Kommentar: Textstellen: Spin can be defined as specific reporting that could distort the interpretation of results and mislead readers. The use of spin in scientific writing can result from ignorance of the scientific issue, unconscious bias, or willful intent to deceive. Such distorted presentation and interpretation of trial results in published articles has been highlighted in letters to editors criticizing the interpretation of results and in methodological reviews evaluating misleading claims in published reports of RCTs or systematic reviews. More than 40% of the reports had spin in at least 2 of these sections in the main text. DOI: 10.1001/jama.2010.651 Study: moderate evidence | Boutron I, Dutton S, et al. Reporting and interpretation of randomized controlled trials with statistically nonsignificant results for primary outcomes. JAMA. 2010;303(20):2058–2064. |
| 11. | 🞽 Systematisches Review Diese Cochrane-Analyse zeigt, dass Industriefinanzierung die Resultate systematisch in Richtung positiver Schlussfolgerungen verschiebt – eine Schlüsselquelle zum Thema Interessenkonflikte. „Industry sponsored studies more often had favorable efficacy results, RR: 1.27 (95% CI: 1.17 to 1.37) […] and more often favorable conclusions RR: 1.34 (95% CI: 1.19 to 1.51) compared with non‐industry sponsored studies.“ Diese Zahlen zeigen, dass industriefinanzierte Studien signifikant häufiger positive Ergebnisse und Schlussfolgerungen zugunsten des Sponsors berichten. „Sponsorship of drug and device studies by the manufacturing company leads to more favorable efficacy results and conclusions than sponsorship by other sources. Our analyses suggest the existence of an industry bias that cannot be explained by standard 'Risk of bias' assessments.“ Die Autoren betonen hier, dass der sogenannte „Industry Bias“ über die üblichen methodischen Verzerrungen hinausgeht und systematisch wirkt. „Previous research has found that pharmaceutical industry sponsored studies tend to favor the sponsors’ drugs more than studies with any other sources of sponsorship. This suggests that industry sponsored studies are biased in favor of the sponsor’s products.“ Diese vereinfachte Zusammenfassung bestätigt, dass die Tendenz zu positiven Ergebnissen bei industriefinanzierten Studien ein wiederholt beobachtetes Muster ist. „In industry sponsored studies, there was less agreement between the results and the conclusions than in non‐industry sponsored studies, RR: 0.83 (95% CI: 0.70 to 0.98).“ Das bedeutet: Die Schlussfolgerungen in industriefinanzierten Studien stimmen seltener mit den tatsächlichen Ergebnissen überein – ein Hinweis auf „Spin“ oder selektive Interpretation. DOI: 10.1002/14651858.MR000033.pub3 | Lundh A, Lexchin J, et al. Industry sponsorship and research outcome. Cochrane Database Syst Rev. 2017;2(2):MR000033. |
| 12. | 🞽 qualitatives systematisches Review Sismondo zeigt, dass Industrien nicht nur finanzieren, sondern auch Publikationen steuern. Er beschreibt das Phänomen des „Ghostwriting“ und verdeutlicht den Einfluss kommerzieller Akteure auf die Forschung. "The causes of this bias are complicated, ranging from ghost-management of the literature by pharmaceutical companies to subtle actions provoked by relationships between companies and researchers. Such actions have been demonstrated to create publication biases through over-publication of positive results and under-publication of negative ones, to create design biases, to duplicate known positive results, to affect the interpretation of data, and may also prompt more serious cases of scientific misconduct. It can easily be seen that these causal connections between funding and outcomes are relatively unaffected by such commonly proposed solutions as: stronger disclosure requirements, rigorous trial reporting standards, and trial registries. Because the bias is not the result of simple methodological problems, radical solutions are called for, that divorce the pharmaceutical industry from published research. In the meantime, the fact that pharmaceutical company funding has such strong effects deserves to be more widely known, and measures to address it more widely explored." DOI: 10.1016/j.cct.2007.08.001 | Sismondo S. Pharmaceutical company funding and its consequences: a qualitative systematic review. Contemp Clin Trials. 2008;29(2):109–113. |
| 13. | 🞽 Systematisches Review Die Studie zeigt, dass die Verwendung von tierischem Eiweiss als Vergleichssubstanz in industriefinanzierten Studien, deren Evidenzqualität als sehr niedrig bis niedrig eingestuft wurde, den kardiovaskulären Nutzen einer Reduzierung des Verzehrs von rotem Fleisch unterschätzen könnte. Die meisten Studien ohne Interessenkonflikte mit der Fleischindustrie deuteten auf einen ungünstigen Effekt des Verzehrs von unverarbeitetem rotem Fleisch auf Risikofaktoren für Herz-Kreislauf-Erkrankungen hin. A total of 44 studies were included, of which 66% had a link to the red meat industry. All independent studies reported either unfavorable (73.3%) or neutral (26.7%) cardiovascular outcomes when consuming unprocessed red meat. Conversely, all studies related to the red meat industry reported either favorable (20.7%) or neutral (79.3%) cardiovascular outcomes for red meat intake. A total of 69.6% of trials (16 of 23) showed a neutral effect of unprocessed red meat compared with other animal proteins, whereas 70% (7 of 10) reported an unfavorable effect compared with plant proteins. Studies with conflicts of interest were nearly 4 times more likely to report “Favorable/Neutral” outcomes compared with independent studies (odds ratio 3.75, 95% confidence interval: 1.62, 8.67). DOI: 10.1016/j.ajcnut.2025.02.030 | López-Moreno M, Fresán U, et al. Industry study sponsorship and conflicts of interest on the effect of unprocessed red meat on cardiovascular disease risk: a systematic review of clinical trials. Am J Clin Nutr. 2025;121(6):1246-1257. |
| 14. | ● Website | Evans W, Gabler E et al. A scientist is paid to study maple syrup. He’s also paid to promote it. The New York Times. April 15, 2025. |
| 15. | 🞽 Content-Analyse (empirische Beobachtungsstudie), die den Einfluss von Pressemitteilungen auf die Nachrichtenberichterstattung untersucht In den Medien dominieren industrienahe Stimmen. Kritische Fachleute mit belastbarer Evidenz erhalten wenig Raum, während PR-Botschaften der Branche direkt in Nachrichten einfliessen. Eine australische Analyse von Brooks et al. (2024) belegte, dass Nachrichtenportale in 80 von 86 Beiträgen über Fastfood-Ketten diese in einem positiven Bild darstellen. The vast majority (93%; n=80) of news media items had a slant that was favourable to a brand. These included items with favourable headlines, such as “Macca’s menu item we’ve been waiting for” and “Have an easy dinner and help with flood relief efforts thanks to Domino’s”, as well as favourable descriptions of new food products like “…there's no trick to this Halloween treat, just delicious thickshake goodness” and “The deluxe burger features… a tasty rasher of bacon”, among others. All news media items that had a slant that was unfavourable to a brand (7%; n=6) were coded as such because they quoted social media users’ criticisms of brands’ products. For example, one news media item stated that “Complaints of a lacklustre amount of toppings or – as one Caramilk fan so eloquently put it – tasting like “crap in a cup” flooded social media.”.
DOI: 10.1016/j.anzjph.2024.100150 | Brooks R, Backholer K, Kite J. Covert marketing of quick-service restaurants via news media in Australia: A content analysis. Aust N Z J Public Health. 2024;48(3):100150. |
| 16. | 🞽 Narratives Review Diese Arbeit belegt, dass Fehlinformation und gezielte Desinformation in der Ernährungswissenschaft systemisch verbreitet sind – ein zentrales Thema Eures Kapitels über Desinformation. Food and nutrition are popular topics in the media and on social media. The ubiquity of social media has created new opportunities for qualified or credentialed experts in the scientific community to connect with clients and the public. It has also created challenges. Health and wellness gurus, or self-proclaimed experts, utilize social media platforms to garner attention through compelling narratives, build audience followings, and influence public opinion by sharing (often) misleading information about food and nutrition. With the abundance of misinformation and disinformation being shared on social media, credentialed nutrition scientists and providers play a vital role in the assessment of the quality and accuracy of information against the body of evidence.
DOI: 10.1016/j.tjnut.2022.10.001 Study: weak evidence | Diekman C, Wansink B, Martinez J. Misinformation and disinformation in food science and nutrition. J Nutr. 2023;153(12):3535–3544. |
| 17. | 🞽 Narratives Review / methodologischer Essay Ein kritischer Beitrag zum Open-Access-System: Der freie Zugang zu Wissen kann neue Ungleichheiten schaffen, wenn Autoren statt Leser bezahlen müssen. Unfaire finanzielle Belastung durch APCs (Article Processing Charges). Viele Open-Access-Journale verlangen hohe Publikationsgebühren, die nicht alle Forschenden tragen können. „The most direct downside of OA is the unfair economic burden of APC for researchers with no external grant funding that pays APCs.“ „Most research institutions have no funds of their own to pay APC charged by OA journals, when researchers have a paper accepted after peer review.“ „Unfortunately, the APC approach hurts peripheral scholars who otherwise have greatly benefited from the growth of OA publishing. These financial (and other) barriers to publishing create a demand for ‘sub-standard journals.’ Publishing in those, to a large extent, diminishes the reputation of work carried out.“ Zunahme von „Predatory Journals“ Das Open-Access-Modell hat zur Verbreitung unseriöser Zeitschriften geführt, die kaum Peer-Review betreiben und primär auf Profit aus sind. „A more subtle consequence of OA's ascendancy, in the eyes of some, is the global proliferation of ‘predatory’ journals.“ „These lie on a spectrum from the outright fraudulent (so called ‘fake journals’) through to those whose business models are based on enticing as many potential authors as possible into parting with APCs.“ „OA carries with it the perverse incentives of any piece-work payment system: a potential reduction in output quality, as production volume increases, motivated purely by financial rewards.“ Qualitätsverlust durch Masse statt Klasse Die wirtschaftlichen Anreize im OA-Modell fördern eine hohe Publikationsrate, oft auf Kosten der Qualität. Peer-Review wird teilweise vernachlässigt, da abgelehnte Artikel keine Einnahmen bringen. Dies erschwert systematische Reviews, da die Zahl minderwertiger Studien steigt und die Effizienz wissenschaftlicher Synthese sinkt. „OA has led to a ‘race to the bottom’ in terms of the scientific quality of peer-reviewed scientific publications in recent years.“ „Indeed, a widely respected journal indexing database, Scopus, has recently had to undertake a thorough ‘cleanout’ to remove hundreds of journals deemed, on careful review, to be unworthy of inclusion due to inadequate peer-review.“ Der Versuch, OA durch Förderbedingungen zu erzwingen (z. B. Plan S), stösst auf Widerstand: „Scholarly resistance is based on the concern that forcing everyone to use OA will: likely lock in place high APCs, may prevent scholars from publishing in their preferred journals, may place severe limitations on journals published by professional societies, and may cause a loss of income for professional societies.“
DOI: 10.1016/j.socscimed.2022.115592 Study: weak evidence | Frank J. Open access publishing – noble intention, flawed reality. Soc Sci Med. 2023;322:115760. |
| 18. | 🞽 juristisch-theoretischen Essay / methodologischen Artikel Geiger fordert ein Recht auf Forschung als Bestandteil des Menschenrechts auf Wissenschaft – eine juristische Ergänzung zum Thema Open Science. Unsicherheit durch restriktive Verlagsverträge “The necessity to publish with prestigious publishers effectively requires researchers to agree to terms that restrict their ability to control the dissemination of their work.” “Authors transaction their right to control publication away.” Diese Aussagen zeigen, dass Forschende oft gezwungen sind, ihre Rechte an der Verlagsversion abzugeben – was Unsicherheit schafft, besonders im Hinblick auf Open Access.
Bedeutung eines „Rechts auf Forschung“ und Open Science “A right to research creates new imperatives that can be instrumentalized to shift the normative focus of copyright law from a restrictive right to an enabling legal framework.” “The conflict between the proprietary interests of rightholders and the societal interests in unhindered purpose-bound research should, in case of doubt, be decided in favour of research and open science.” Diese Passagen stützen die Forderung nach einem Urheberrecht, das Forschung und Open Science aktiv ermöglicht – genau wie du es in deiner Zusammenfassung beschrieben hast.
Sekundärveröffentlichungsrecht als Lösung "A right to simultaneously (re-)publish the results of scientific research would help to make science more open and accessible to academic peers and researchers around the globe." “Such rights have already been introduced at national level, for example Paragraph 38(4) of the German Copyright Act […] Similarly, France has introduced Article L 533-4 of the Research Code […] The introduction of such right has recently been explicitly welcomed by the EU Council and should be urgently put on the copyright reform agenda in the near future.” Diese Stellen zeigen, dass Geiger und Jütte konkrete rechtliche Reformen vorschlagen, um die Unsicherheit zu beseitigen und Open Access zu fördern. DOI: - | Geiger C, Jütte BJ. Copyright, the Right to Research and Open Science: about time to connect the dots. IIC. 2024;55(5):505–534. |
| 19. | 🞽 empirische quantitative Studie zur Wirkung von Open Science Praktiken auf Zitationen Preprint und die Offenlegeung von Forschungsdaten führen zu einer 20 % bzw. 4,3 % häufigeren Zitation. Es gibt kein Vorteil für das Offenlegen von Code (skrips). We show that Open Science practices are adopted to different degrees across scientific disciplines. We find that the early release of a publication as a preprint correlates with a significant positive citation advantage of about 20.2% (±.7) on average. We also find that sharing data in an online repository correlates with a smaller yet still positive citation advantage of 4.3% (±.8) on average. However, we do not find a significant citation advantage for sharing code. Further research is needed on additional or alternative measures of impact beyond citations. Our results are likely to be of interest to researchers, as well as publishers, research funders, and policymakers. DOI: 10.1371/journal.pone.0311493 | Colavizza G, Pontika N, Wouters P. An analysis of the effects of sharing research data, code, and preprints on citations. Quant Sci Stud. 2024;5(2):367–390. |
| 20. | 🞽 Politikwissenschaftliche Studie Dieser Artikel zeigt, dass offene Wissenschaft politische Steuerung braucht – sonst entstehen erneut Ungleichheiten. Zur Dominanz westlicher Verlage und Paywalls: “Publishing technology has undergone remarkable transformations, and scientists can now instantaneously share nearly all aspects of their scholarship with a worldwide audience. However, the academic research community continues to treat journal articles as the principal way of sharing research and efforts for change generally remain tied to this journal-centric system.” “One unfortunate legacy of the print era—when publishing was expensive and limited in length and structure—is that publications often serve as an advertisement of research rather than a complete record of the research process and outcomes.” Diese Stellen kritisieren die fortbestehende Abhängigkeit vom traditionellen Publikationssystem, das oft durch Paywalls und selektive Veröffentlichung geprägt ist. Zur Forderung nach politischer Steuerung und öffentlicher Finanzierung: “We argue for concerted and persistent efforts, supported by sustained public funding mechanisms, that treat open science as a milepost toward a more effective research ecosystem.” “To date, support for open science infrastructure and training has relied in good part on volunteers and philanthropic funding... As a scientific community, we do not rely on volunteers and philanthropists as the primary means to support research; we should not rely on them as the primary means to ensure research is open, rigorous, and collaborative.” Diese Passagen zeigen deutlich die Forderung nach politischer Verantwortung und öffentlicher Finanzierung zur Sicherstellung von Open Science. Zur Betonung von Transparenz und Datenverfügbarkeit: “Conversations about open science have reached the mainstream, yet many open science practices such as data sharing remain uncommon. Our efforts towards openness therefore need to increase in scale and aim for a more ambitious target.” “We need an ecosystem not only where research outputs are openly shared but also in which transparency permeates the research process from the start and lends itself to more rigorous and collaborative research.” DOI: 10.1371/journal.pbio.3002362 | Thibault RT, Amaral OB, et al. Open Science 2.0: Towards a truly collaborative research ecosystem. PLoS Biol. 2023;21(10):e3002362. |
| 21. | 🞽 Meinungsartikel / Essay Warnung vor unseriösen „Raubverlagen“, die gegen Gebühr veröffentlichen, ohne Qualitätssicherung – ein Schlüsselbeispiel für Quellenkritik. Early experiments with open-access publishing, such as the Journal of Medical Internet Research and BioMed Central, were very promising. Set up more than a decade ago, they helped to inspire a social movement that has changed academic publishing for the better, lowered costs and expanded worldwide access to the latest research. Then came predatory publishers, which publish counterfeit journals to exploit the open-access model in which the author pays. These predatory publishers are dishonest and lack transparency. They aim to dupe researchers, especially those inexperienced in scholarly communication. They set up websites that closely resemble those of legitimate online publishers, and publish journals of questionable and downright low quality. Many purport to be headquartered in the United States, United Kingdom, Canada or Australia but really hail from Pakistan, India or Nigeria. Some predatory publishers spam researchers, soliciting manuscripts but failing to mention the required author fee. Later, after the paper is accepted and published, the authors are invoiced for the fees, typically US$1,800. Because the scientists are often asked to sign over their copyright to the work as part of the submission process (against the spirit of open access) they feel unable to withdraw the paper and send it elsewhere. I also get e-mails from the predators’ victims. Some have been named as members of editorial boards without their knowledge or permission. Others have had an article partially or completely plagiarized in a predatory journal. Now there is a journal willing to accept almost every article, as long as the author is willing to pay the fee. Authors, rather than libraries, are the customers of open-access publishers, so a powerful incentive to maintain quality has been removed. Perhaps nowhere are these abuses more acute than in India, where new predatory publishers or journals emerge each week. They are appearing because of the market need — hundreds of thousands of scientists in India and its neighbouring countries need to get published to earn tenure and promotion. Here, the problem is not just with the publishers. Scientists themselves are also to blame. Many are taking unethical shortcuts and paying for the publication of plagiarized or self-plagiarized work. DOI: 10.1038/489179a | Beall J. Predatory publishers are corrupting open access. Nature. 2012;489(7415):179. |
| 22. | 🞽 Narratives Review / methodologischer Essay John Ioannidis zeigte mit einem einfachen mathematischen Modell, warum viele veröffentlichte Studienergebnisse wahrscheinlich falsch sind. Dieser Essay ist der meistgelesene methodische Beitrag in PLoS Medicine. Er mahnt, dass auch wissenschaftliche Resultate kritisch geprüft werden müssen – ein Grundgedanke der gesamten „Evidenz-für-Studien“-Einführung. Die Grundthese: Die meisten veröffentlichten Forschungsergebnisse sind falsch “It can be proven that most claimed research findings are false.” Diese Aussage bildet die Grundlage des gesamten Artikels. Ioannidis argumentiert, dass methodische Schwächen, Bias und geringe statistische Power dazu führen, dass viele Studienergebnisse nicht zutreffen. Einfluss von Studiendesign und Bias “The probability that a research finding is indeed true depends on the prior probability of it being true, the statistical power of the study, and the level of bias.” Er zeigt, dass selbst bei statistisch signifikanten Ergebnissen die Wahrscheinlichkeit, dass sie wahr sind, oft gering ist – besonders bei niedriger Power und hohem Bias. Probleme bei kleinen Studien und vielen Hypothesen “Small sample size, small effect size, and flexibility in designs, definitions, outcomes, and analytical modes increase the proportion of false findings.” Diese Aussage kritisiert die Praxis, viele Hypothesen zu testen oder Daten mehrfach zu analysieren, was die Wahrscheinlichkeit von Zufallsbefunden erhöht. Interessenkonflikte und finanzielle Einflüsse “The greater the financial and other interests and prejudices in a scientific field, the less likely the research findings are to be true.” Ioannidis warnt davor, dass wirtschaftliche Interessen die Objektivität der Forschung gefährden. Replikation ist selten – und oft negativ “Most research findings are not only false, but they are also relatively rarely replicated or directly tested.” Er betont, dass viele Studien nie überprüft werden – und wenn doch, oft nicht bestätigt werden können. Wissenschaftliche Publikation als Spiel mit Wahrscheinlichkeiten “Claimed research findings may often be simply accurate measures of the prevailing bias.” Das bedeutet: Ein „signifikantes“ Ergebnis kann oft eher ein Spiegel der systematischen Verzerrung sein als ein echter Effekt.
DOI: 10.1371/journal.pmed.0020124 | Ioannidis JPA. Why most published research findings are false. PLoS Med. 2005;2(8):e124. |
| 23. | 🞽 Narratives Review / methodologischer Essay Garfield erfand die Zitationsanalyse – Grundlage für heutige Impact-Messungen und wissenschaftliche Rezeption. In this paper I propose a bibliographic system for science literature that can eliminate the uncritical citation of fraudulent, incomplete, or obsolete data by making it possible for the conscientious scholar to be aware of criticisms of earlier papers. It is too much to expect a research worker to spend an inordinate amount of time searching for the bibliographic descendants of antecedent papers. It would not be excessive to demand that the thorough scholar check all papers that have cited or criticized such papers. if they could be located quickly. The citation index makes this check practicable. Even if there were no other use for a citation index than that of minimizing the citation of poor data, the index would be well worth the effort required to compile it. Citation indexes depend on a simple system of coding entries, one that re quires minimum space and facilitates the gathering together of a great volume of material. However, a code is not absolutely necessary if one chooses to compiler a systematic listing of individual cases or reports, with a complete bibliographic history of each of them.
DOI: 10.1126/science.122.3159.108 | Garfield E. Citation indexes for science. Science. 1955;122(3159):108–111. |
| 24. | 🞽 Narratives Review / methodologischer Essay DOI: - | Garfield E. The Mystery of the Transposed Journal Lists. Wherein Bradford's Law of Scattering is Generalized According to Garfield's Law of Concentration. Essays of an Information Scientist. 1971;1:222-223. |
| 25. | 🞽 Positionspapier Dieses Manifest führte den Begriff „Altmetrics“ ein – alternative Kennzahlen jenseits der Zitationen. Because altmetrics are themselves diverse, they’re great for measuring impact in this diverse scholarly ecosystem. In fact, altmetrics will be essential to sift these new forms, since they’re outside the scope of traditional filters. This di versity can also help in measuring the aggregate impact of the research enter prise itself. Altmetrics are fast, using public APIs to gather data in days or weeks. They’re open–not just the data, but the scripts and algorithms that collect and inter pret it. Altmetrics look beyond counting and emphasize semantic content like usernames, timestamps, and tags. Altmetrics aren’t citations, nor are they webometrics; although these latter approaches are related to altmetrics, they are relatively slow, unstructured, and closed. Altmetrics are in their early stages; many questions are unanswered. But given the crisis facing existing filters and the rapid evolution of scholarly communi cation, the speed, richness, and breadth of altmetrics make them worth invest ing in. | Priem J, Taraborelli D, Groth P, Neylon C. Altmetrics: a manifesto. 2010. |
| 26. | 🞽 Narratives Review / methodologischer Essay Hohe Social-Media-Präsenz bedeutet nicht automatisch hohe wissenschaftliche Qualität – ein wichtiger Hinweis zur Quellenbewertung. It goes without saying that altmetrics have disadvantages as well as advantages. They share this characteristic with traditional metrics. Not everything that is cited has been read, and the relevant publications are not always cited in the correct place in a manuscript. According to Priem et al. 2010, in order to be able to answer the question of whether altmetrics measure impact (“or just empty buzz”), it should be compared with expert evaluations. Do altmetric counts correlate with the evaluations by experts of the societal impact of a paper? It is much easier to manipulate altmetrics than bibliometrics. The lack of evidence of altmetrics relates to the scarcity of sophisticated empirical studies on altmetrics. As not everyone (in a city, a country, etc.) uses social media platforms, a measurement of impact always relates to a specific sample of people who have mentioned a paper more or less frequently. It is assumed that this sample has a systematic bias towards younger or more fad-embracing people or towards those with a professional interest in research. As there are no accurate user statistics or sample descriptions for individual social media platforms, this bias cannot be quantified. Altmetric counts are frequently made available as counts of all relevant mentions on a platform. However, more information about user groups who have had to do with a scientific paper is essential for a valid measurement of societal impact; has impact been measured in government documents or on social media comment sites? This more specific description of the impact achieved is usually lacking nowadays. DOI: 10.1016/j.joi.2014.09.005 | Bornmann L. Do altmetrics point to the broader impact of research? J Informetr. 2014;8(4):895–903. |
| 27. | 🞽 Randomisierte kontrollierte Studie RCT Keine signifikanten Unterschiede im Gewichtsverlust zwischen Low-Fat und Low-Carb Beschreibung: Die Studie verglich zwei Diätformen über 12 Monate und fand keinen statistisch signifikanten Unterschied im durchschnittlichen Gewichtsverlust. Originalzitat: “Weight change at 12 months was −5.3 kg for the HLF diet vs −6.0 kg for the HLC diet (mean between-group difference, 0.7 kg [95% CI, −0.2 to 1.6 kg]).”
Genotyp hatte keinen Einfluss auf den Diäterfolg Beschreibung: Die genetische Veranlagung (Low-Fat- oder Low-Carb-Genotyp) beeinflusste nicht, wie viel Gewicht die Teilnehmer verloren. Originalzitat: “There was no significant diet-genotype pattern interaction (P = .20) … This indicates that there was no significant difference in weight change among participants matched vs mismatched to their diet assignment based on their 3-SNP genotype pattern.”
Insulinsekretion hatte keinen Einfluss auf den Diäterfolg Beschreibung: Auch die Insulinantwort nach Glukosegabe (INS-30) zeigte keinen Zusammenhang mit dem Erfolg der jeweiligen Diät. Originalzitat: “Similarly, the test for interaction among diet, baseline insulin secretion (INS-30), and the 12-month time point was not statistically significant.”
Grosse individuelle Unterschiede im Gewichtsverlust Beschreibung: Unabhängig von der Diätform variierten die individuellen Ergebnisse stark – manche nahmen über 30 kg ab, andere nahmen sogar zu. Originalzitat: “There was a similar range for weight change of approximately 40 kg within each group (−30 kg to 10 kg).”
Beide Diäten führten zu Verbesserungen der Gesundheit Beschreibung: Beide Gruppen zeigten Verbesserungen bei Blutdruck, Blutzucker und Lipidwerten – mit unterschiedlichen Vorteilen je nach Diät. Originalzitat: “At 12 months relative to baseline, both diets improved lipid profiles and lowered blood pressure, insulin, and glucose levels, with the exception of low-density lipoprotein cholesterol concentrations, which increased for participants in the healthy low-carbohydrate group”
Die Hypothesen zur personalisierten Diätwahl wurden nicht bestätigt Beschreibung: Die Studie konnte nicht zeigen, dass genetische oder metabolische Marker helfen, die „richtige“ Diät für eine Person vorherzusagen. Originalzitat: “In the context of these 2 common weight loss diet approaches, neither of the 2 hypothesized predisposing factors was helpful in identifying which diet was better for whom.” DOI: 10.1001/jama.2018.0245 Study: strong evidence | Gardner CD, Trepanowski JF, et al. Effect of Low-Fat vs Low-Carbohydrate Diet on 12-Month Weight Loss in Overweight Adults and the Association With Genotype Pattern or Insulin Secretion: The DIETFITS Randomized Clinical Trial. JAMA. 2018;319(7):667-679. |
| 28. | 🞽 Prospektive Kohortenstudie The Prospective Urban Rural Epidemiology (PURE) study is a large, epidemiological cohort study of individuals aged 35–70 years (enrolled between Jan 1, 2003, and March 31, 2013) in 18 countries with a median follow-up of 7·4 years (IQR 5·3–9·3). Dietary intake of 135 335 individuals was recorded using validated food frequency questionnaires. The primary outcomes were total mortality and major cardiovascular events (fatal cardiovascular disease, non-fatal myocardial infarction, stroke, and heart failure). Secondary outcomes were all myocardial infarctions, stroke, cardiovascular disease mortality, and non-cardiovascular disease mortality. Participants were categorised into quintiles of nutrient intake (carbohydrate, fats, and protein) based on percentage of energy provided by nutrients. We assessed the associations between consumption of carbohydrate, total fat, and each type of fat with cardiovascular disease and total mortality. We calculated hazard ratios (HRs) using a multivariable Cox frailty model with random intercepts to account for centre clustering. During follow-up, we documented 5796 deaths and 4784 major cardiovascular disease events. Higher carbohydrate intake was associated with an increased risk of total mortality (highest [quintile 5] vs lowest quintile [quintile 1] category, HR 1·28 [95% CI 1·12–1·46], ptrend=0·0001) but not with the risk of cardiovascular disease or cardiovascular disease mortality. Intake of total fat and each type of fat was associated with lower risk of total mortality (quintile 5 vs quintile 1, total fat: HR 0·77 [95% CI 0·67–0·87], ptrend<0·0001; saturated fat, HR 0·86 [0·76–0·99], ptrend=0·0088; monounsaturated fat: HR 0·81 [0·71–0·92], ptrend<0·0001; and polyunsaturated fat: HR 0·80 [0·71–0·89], ptrend<0·0001). Higher saturated fat intake was associated with lower risk of stroke (quintile 5 vs quintile 1, HR 0·79 [95% CI 0·64–0·98], ptrend=0·0498). Total fat and saturated and unsaturated fats were not significantly associated with risk of myocardial infarction or cardiovascular disease mortality. High carbohydrate intake was associated with higher risk of total mortality, whereas total fat and individual types of fat were related to lower total mortality. Total fat and types of fat were not associated with cardiovascular disease, myocardial infarction, or cardiovascular disease mortality, whereas saturated fat had an inverse association with stroke. Global dietary guidelines should be reconsidered in light of these findings. In this large prospective cohort study from 18 countries in five continents, we found that high carbohydrate intake (more than about 60% of energy) was associated with an adverse impact on total mortality and non cardiovascular disease mortality. By contrast, higher fat intake was associated with lower risk of total mortality, non-cardiovascular disease mortality, and stroke. Furthermore, higher intakes of individual types of fat were associated with lower total mortality, non cardiovascular disease mortality, and stroke risk and were not associated with risk of major cardiovascular disease events, myocardial infarction, or cardiovascular disease mortality. Our findings do not support the current recommendation to limit total fat intake to less than 30% of energy and saturated fat intake to less than 10% of energy. Individuals with high carbohydrate intake might benefit from a reduction in carbohydrate intake and increase in the consumption of fats. Moreover, in our study most participants from low-income and middle-income countries consumed a very high carbohydrate diet (at least 60% of energy), especially from refined sources (such as white rice and white bread), which have been shown to be associated with increased risk of total mortality and cardiovascular events.42 Therefore, recommending lowering carbohydrate might be particularly applicable to such settings if replacement foods from fats and protein are available and affordable. DOI: 10.1016/S0140-6736(17)32252-3 Study: moderate evidence | Dehghan M, Mente A, et al. Associations of fats and carbohydrate intake with cardiovascular disease and mortality in 18 countries from five continents (Pure): a prospective cohort study. The Lancet. 2017;390(10107):2050-2062. |
| 29. | 🞽 Randomisierte kontrollierte Studie RCT In a multicenter trial in Spain, we randomly assigned participants who were at high cardiovascular risk, but with no cardiovascular disease at enrollment, to one of three diets: a Mediterranean diet supplemented with extra-virgin olive oil, a Mediterranean diet supplemented with mixed nuts, or a control diet (advice to reduce dietary fat). Participants received quarterly individual and group educational sessions and, depending on group assignment, free provision of extra-virgin olive oil, mixed nuts, or small nonfood gifts. The primary end point was the rate of major cardiovascular events (myocardial infarction, stroke, or death from cardiovascular causes). On the basis of the results of an interim analysis, the trial was stopped after a median follow-up of 4.8 years. A total of 7447 persons were enrolled (age range, 55 to 80 years); 57% were women. The two Mediterranean-diet groups had good adherence to the intervention, according to self-reported intake and biomarker analyses. A primary end-point event occurred in 288 participants. DOI: 10.1056/NEJMoa1200303 Study: strong evidence | Estruch R, Ros E, et al. Primary prevention of cardiovascular disease with a Mediterranean diet. N Engl J Med. 2013;368(14):1279-1290. Retraction in: N Engl J Med. 2018;378(25):2441-2442. |
| 30. | 🞽 Randomisierte kontrollierte Studie In a multicenter trial in Spain, we assigned 7447 participants (55 to 80 years of age, 57% women) who were at high cardiovascular risk, but with no cardiovascular disease at enrollment, to one of three diets: a Mediterranean diet supplemented with extra-virgin olive oil, a Mediterranean diet supplemented with mixed nuts, or a control diet (advice to reduce dietary fat). DOI: 10.1056/NEJMoa1800389 Study: strong evidence | Estruch R, Ros E, Salas-Salvadó J, et al. Primary Prevention of Cardiovascular Disease with a Mediterranean Diet Supplemented with Extra-Virgin Olive Oil or Nuts. N Engl J Med. 2018;378(25):e34. |
| 31. | 🞽 Querschnittsstudie innerhalb einer Kohortenstudie Werte aus Table 2: Vegan 23,6, Lacto-ovo vegetarian 25,7 Pesco-vegetarian 26,3 Semi-vegetarian 27,3 Nonvegetarian 28,8 The prevalence of type 2 diabetes increased incrementally among vegans, lacto-ovo vegetarians, pesco-vegetarians, semi-vegetarians, and nonvegetarians DOI: 10.2337/dc08-1886 Study: moderate evidence | Tonstad S, Butler T, et al. Type of vegetarian diet, body weight, and prevalence of type 2 diabetes. Diabetes Care. 2009;32(5):791–796. |
| 32. | 🞽 Beobachtungsstudie mit vergleichendem Design Those following vegan diets were younger than omnivores (mean: 36 vs. 44 years) and more likely to be females (68% vs. 52%). Vegans also had slightly lower body mass index (BMI) than omnivores (23.7 vs. 26.9 kg/m2) and were more likely to have a university education compared to omnivores (75% vs. 52%). Most vegans (97%) and omnivores (72%) reported taking one or more food supplements. DOI: 10.1038/s41598-025-03193-3 Study: moderate evidence | Gudmannsdottir R, Gunnarsdottir S, et al. Vegan and omnivore diets in relation to nutrient intake and greenhouse gas emissions in Iceland. Sci Rep. 2025;15(1):18190. |
| 33. | 🞽 Prospektive Beobachtungsstudie The plant-based diet group reported a higher rate of physical activity than the omnivorous group (p=0.01). The mean BMI was significantly lower in the plant-based diet group than in the omnivorous group and the prevalence of overweight and obesity was significantly higher in the omnivorous than in the plant-based group (p=0.001). DOI: 10.1136/bmjnph-2023-000629 Study: moderate evidence | Acosta-Navarro JC, Dias LF, et al. Vegetarian and plant-based diets associated with lower incidence of COVID-19. BMJ Nutr Prev Health. 2024;7(1):4-13. |
| 34. | 🞽 Retrospektive Querschnittstudie When including only obese individuals (BMI ≥ 30 kg/m2, n = 153) in the analysis, we observed lower concentrations of GGT and ferritin in vegetarians than in omnivores, regardless of gender and menstrual blood loss (p = 0.0395). Our data showed that for both vegetarians and omnivores, the higher the BMI, the worse the metabolic parameters. However, regarding obesity, vegetarians showed better antioxidant status (lower GGT elevation) and lower inflammatory status (lower ferritin elevation), which may provide them with potential protection in the development of morbidities associated with overweight. DOI: 10.3390/nu14112204 Study: moderate evidence | Slywitch E, Savalli C, et al. Obese Vegetarians and Omnivores Show Different Metabolic Changes: Analysis of 1340 Individuals. Nutrients. 2022;14(11):2204. |
| 35. | 🞽 Expertenmeinung Zur Kritik an der schematischer Checklisten-Medizin: “Inexperienced clinicians may (partly through fear of litigation) engage mechanically and defensively with decision support technologies, stifling the development of a more nuanced clinical expertise that embraces accumulated practical experience, tolerance of uncertainty, and the ability to apply practical and ethical judgment in a unique case.” “Templates and point of care prompts also contribute to the creeping managerialism and politicisation of clinical practice.” “As the language of EBM becomes ever more embedded in medical practice, and as bureaucratic rules become the accepted way to implement ‘the best’ evidence, its requirements for evidence are quietly attenuated in favour of an emphasis on rules.”
Zur Ignoranz gegenüber realer Komplexität: “Evidence based guidelines often map poorly to complex multimorbidity.” “Multimorbidity (a single condition only in name) affects every person differently and seems to defy efforts to produce or apply objective scores, metrics, interventions, or guidelines.” “As serious illness is lived, evidence based guidelines may become irrelevant, absurd, or even harmful (most obviously, in terminal illness).” But others argued that evidence based medicine, if practised knowledgably and compassionately, could accommodate basic scientific principles, the subtleties of clinical judgment, and the patient’s clinical and personal idiosyncrasies. DOI: 10.1136/bmj.g3725 Study: weak evidence | Greenhalgh T, Howick J, Maskrey N. Evidence-based medicine: a movement in crisis? BMJ. 2014;348:g3725. |
| 36. | 🞽 Narratives Review Es handelt sich um eine Perspektivenarbeit (Narrative Review), die die Übertragbarkeit von Mausmodellen auf die Erforschung menschlicher Stoffwechselkrankheiten diskutiert. Ziel ist es, die Übersetzbarkeit von Mausdaten auf den Menschen kritisch zu bewerten und zukünftige Forschungsrichtungen aufzuzeigen. DOI: 10.1016/j.cell.2024.07.011 Study: weak evidence | Farooqi IS, Xu Y. Translational potential of mouse models of human metabolic disease. Cell. 2024;187(16):4129-4143. |
| 37. | 🞽 randomisierte, doppelblinde, placebokontrollierte klinische Studie (RCT) DOI: 10.1093/ajcn/nqaa125 Study: strong evidence | de Ligt M, Bergman M, et al. No effect of resveratrol supplementation after 6 months on insulin sensitivity in overweight adults: a randomized trial. Am J Clin Nutr. 2020;112(4):1029-1038. |
| 38. | 🞽 Historische Dokumentenanalyse (Fallstudie) DOI: 10.1001/jamainternmed.2016.5394 | Kearns CE, Schmidt LA, Glantz SA. Sugar Industry and Coronary Heart Disease Research: A Historical Analysis of Internal Industry Documents. JAMA Intern Med. 2016;176(11):1680-1685. Erratum in: JAMA Intern Med. 2016;176(11):1729. |
| 39. | 🞽 Systematisches Review DOI: 10.1016/j.ajcnut.2025.02.030 Study: strong evidence | López-Moreno M, Fresán U, et al. Industry study sponsorship and conflicts of interest on the effect of unprocessed red meat on cardiovascular disease risk: a systematic review of clinical trials. Am J Clin Nutr. 2025;121(6):1246-1257. |
| 40. | 🞽 Expertenmeinung DOI: 10.1038/483531a Study: weak evidence | Begley CG, Ellis LM. Drug development: Raise standards for preclinical cancer research. Nature. 2012;483(7391):531-533. |
| 41. | 🞽 Prospektive Kohortenstudie DOI: 10.1136/bmj.l4897 Study: moderate evidence | Tong TYN, Appleby PN, et al. Risks of ischaemic heart disease and stroke in meat eaters, fish eaters, and vegetarians over 18 years of follow-up: results from the prospective EPIC-Oxford study. BMJ. 2019;366:l4897. |
| 42. | 🞽 prospektive Kohortenstudie There was no significant difference in overall (all-cause) mortality between the diet groups: HRs in low meat eaters, fish eaters, and vegetarians compared with regular meat eaters were 0.93 (95% CI: 0.86, 1.00), 0.96 (95% CI: 0.86, 1.06), and 1.02 (95% CI: 0.94, 1.10), respectively; P-heterogeneity of risks = 0.082. DOI: 10.3945/ajcn.115.119461 Study: moderate evidence | Appleby PN, Crowe FL, et al. Mortality in vegetarians and comparable nonvegetarians in the United Kingdom. Am J Clin Nutr. 2016;103(1):218-230. |
| 43. | 🞽 Narratives Review auf Basis von Kohortenstudien DOI: 10.1017/S0029665121003748 Study: weak evidence | Key TJ, Papier K, Tong TYN. Plant-based diets and long-term health: findings from the EPIC-Oxford study. Proc Nutr Soc. 2022;81(2):190-198. |
| 44. | ● Book | O’Regan BA, Hirshberg C. Spontaneous Remission: An Annotated Bibliography. Sausalito (CA): Institute of Noetic Sciences; 1993. |
| 45. | 🞽 Narratives Review DOI: 10.4103/0976-9668.82318 Study: weak evidence | Jessy T. Immunity over inability: The spontaneous regression of cancer. J Nat Sci Biol Med. 2011;2(1):43-49. |
| 46. | 🞽 Narratives Review Study: weak evidence | Papac RJ. Spontaneous regression of cancer: possible mechanisms. In Vivo. 1998;12(6):571-578. |
| 47. | 🞽 Retrospektive Beobachtungsstudie Ziel:
DOI: 10.1093/jnci/djaa061 Study: moderate evidence | Conley BA, Staudt L, et al. The Exceptional Responders Initiative: Feasibility of a National Cancer Institute Pilot Study. J Natl Cancer Inst. 2021;113(1):27-37. |
| 48. | 🞽 Narratives Review DOI: 10.1055/s-2002-26764 Study: weak evidence | Heim ME. Spontanremissionen bei Krebs. Erfahrungsheilkunde. 2002;51(4):236–241. |
| 49. | 🞽 Positions- und Konsensusarbeit der American Statistical Association (ASA) / Expertenmeinung DOI: 10.1080/00031305.2016.1154108 Study: weak evidence | Wasserstein RL, Lazar NA. The asa statement on p-values: context, process, and purpose. The American Statistician. 2016;70(2):129–133. |
| 50. | 🞽 Methodenkritische Primärstudie mit experimentellen Beispielen und statistischen Simulationen. DOI: 10.1177/0956797611417632 | Simmons J, Nelson L, Simonsohn U. False-positive psychology: Undisclosed flexibility in data collection and analysis allow presenting anything as significant. Psychological Science 2011;22(11):1359–1366. |
| 51. | 🞽 methodenkritische Übersichtsarbeit / Diskussionsartikel, der die Probleme und Grenzen der Behavioral-Priming-Forschung beleuchtet, nicht um eine neue empirische Studie. DOI: 10.1037/a0033242 | Simonsohn U, Nelson LD, Simmons JP. P-curve: A key to the file-drawer. Journal of Experimental Psychology: General. 2014;143(2):534–547. |
| 52. | ● Book | Davis G, Jacobson H. Proteinaholic: wie unsere Fleischsucht uns umbringt und was wir dagegen tun können. 1. deutsche Auflage. Kandern: Unimedica; 2016. 429 S. |
| 53. | 🞽 empirische Netzwerk- und Datenanalyse (sozialwissenschaftliche Primärstudie) The success of this model could be in jeopardy if some stakeholders fail to contribute fairly to the tasks assigned to them. Due to the increasing scale and scope of the scientific enterprise, the degree to which stakeholders contribute to the system is now increasingly evaluated by potentially misleading proxies (12, 13) such as the h-index (14), journal impact factor, university rankings, and scientific prizes. Nonetheless, these proxies have quickly become targets for evaluation of institutional and personal impact, resulting in increasing competition and growing inequality in how resources and rewards are distributed (15–20), which could leave the scientific enterprise more susceptible to defection (16, 21–23). Scholarly defection occurs when there is a failure to make genuine contributions to the production of knowledge or to the training of an expert workforce while still benefiting from the contract. A 2002 survey of scientists funded by the United States NIH reported that 0.2% of mid-career researchers and 0.5% of early-career researchers admitted to falsifying research data in the previous three years (16). A systematic analysis of more than 20,000 articles published between 1995 and 2014 reported that 3.8% of these articles contained inappropriately duplicated images, with at least half of these cases suggestive of deliberate manipulation (24). We and others have also recently described a class of entities engaging in large scale scientific fraud, typically denoted “paper mills,” that sell mass-produced low quality and fabricated research articles (as described by Byrne et al. (25) and in a report by the Committee on Publication Ethics and the International Association of Scientific, Technical & Medical Publishers (26); also see SI Appendix). In a 2022–2023 survey of medical residents at tertiary hospitals in southwest China, 46.7% of respondents self-reported buying and selling papers, letting other people write papers, or writing papers for others (27). Some publishers report that up to 1 in 7 of their submissions are of probable “paper mill provenance” (26, 28). Agents for paper mills have also recently been reported to attempt to bribe journal editors (29, 30) and to “hijack” the entire editorial processes at some journals (31–33). DOI: 10.1073/pnas.2420092122 | Richardson RAK, Hong SS, Byrne JA, Stoeger T, Amaral LAN. The entities enabling scientific fraud at scale are large, resilient, and growing rapidly. Proc Natl Acad Sci USA. 2025;122(32):e2420092122. |
| 54. | 🞽 Meinungs- und Diskussionsbeitrag / Expertenmeinung Over the last centuries, scientific publishing has witnessed a profound evolution, expanding from a modest collection of 10 journals in the 17th century to an extensive network of over 100,000 journals by the close of the 20th century (4). This remarkable growth highlights the essential role that publishing plays in the progress of science; facilitating the widespread dissemination of groundbreaking innovative ideas, findings, and theories (5). Consequently, the act of publishing has become a pivotal component of the activities that researchers must fulfill, with universities increasingly regarding scientific papers as critical metrics for evaluation and ranking within the academic community (6, 7). In this context, social networks have become a powerful tool for the sale of articles and theses (7–9). Consequently, this undermines the quality and integrity of the research community, jeopardizes the credibility of genuine academic work, and corrupts the whole academic system, where excellence is evaluated by publication records (6). These platforms have become centers of unethical commodification of academic credentials (9), which aggravates the problems of integrity in scientific publication and manages to alter the metrics and rankings of scientific production. Regarding the use of AI, more than 100 articles have been identified as likely partially written by ChatGPT (18). Since the launch of this tool, there has been a 72% increase in articles potentially written by AI, despite evidence that AI can commit data falsification and fabricate non-existent results (18–20). The consequences of such practices in biomedical research include scientific fraud, misleading statistics, content saturation, fraud in the application of funds, and increased pressure on legitimate researchers (21). DOI: 10.3389/fmed.2024.1405424 | Vasconez-Gonzalez J, Izquierdo-Condoy JS, Naranjo-Lara P, Garcia-Bereguiain MÁ, Ortiz-Prado E. Integrity at stake: confronting "publish or perish" in the developing world and emerging economies. Front Med. 2024;11:1405424. |
| 55. | 🞽 Expertenmeinung The integrity of academic publishing, a cornerstone of science,1 is critical for the advancement of health care, technological development and economic growth. Yet, the publishing system is targeted by three major threats: for-profit publishers create barriers to research dissemination and demand substantial fees for open access (OA) which contribute to their 25–35% profits from academia, predatory journals publish a flood of low-quality papers without adequate peer review and, most recently, ‘paper mills’ increasingly pollute the scientific literature with fake articles reporting fake data. Although numerous statements on the code of conduct for research integrity and academic publishing have been disseminated to ascertain high research quality and integrity (see table 1), low-quality and fraudulent publications have dramatically increased [1]. This upsurge is driven by incentives of a reputation economy where quantitative metrics (publication number, impact factors, h-index) often count more than the quality of the research. These metrics are gamed, among others, by the hundreds of thousands of fake publications [2,3] produced each year by a corrupt ‘paper mill’ industry [4] that sells authorships to scientists under pressure to publish and bribes editors to publish these papers [5], a development which is accelerated by AI. This situation drains financial resources provided by taxpayers and funding agencies, distorts studies, wastes efforts to perform studies that build upon them, leads to meaningless replication studies, spreads false information that is later hard to debunk, and undermines practical applications including medical care and engineering. It is arguably the largest science crisis of all time, threatening to erode people’s trust in research. Although numerous statements on the code of conduct for research integrity and academic publishing have been disseminated to ascertain high research quality and integrity, low-quality and fraudulent publications have dramatically increased. This upsurge is driven by incentives of a reputation economy where quantitative metrics (publication number, impact factors, h-index) often count more than the quality of the research. These metrics are gamed, among others, by the hundreds of thousands of fake publications produced each year by a corrupt ‘paper mill’ industry that sells authorships to scientists under pressure to publish and bribes editors to publish these papers, a development which is accelerated by AI. This situation drains financial resources provided by taxpayers and funding agencies, distorts studies, wastes efforts to perform studies that build upon them, leads to meaningless replication studies, spreads false information that is later hard to debunk, and undermines practical applications including medical care and engineering. The Stockholm Declaration is a call to action for all stakeholders in science and technology organizations around the world to unite in reforming the structure of the current science publishing culture and to assure academic freedom and trustworthiness by community control. Other initiatives have formulated recommendations which are compatible with the present Stockholm Declaration (see table 1). They address topics such as transparency, fairness and academic control in publishing. Most also demand shifting control of scholarly publishing away from profit-driven corporations and back to the academic community. DOI: 10.1098/rsos.251805 | Sabel B, Larhammar D. Reformation of science publishing: the Stockholm Declaration. R Soc Open Sci. 2025;12(11):251805. |
| 56. | 🞽 empirische Metadaten-Analyse (Beobachtungsstudie), die Fake-Papers mit regulären Artikeln vergleicht, um Muster und mögliche Erkennungsmerkmale aufzudecken. For that purpose, we examined metadata of 12 fake papers that were retracted by Naunyn-Schmiedeberg’s Archives of Pharmacology (NSAP) in recent years. We also compared many of these metadata with those of a reference group of 733 articles published by NSAP. It turned out that in many characteristics the fake papers we examined did not differ substantially from the other articles. It was only noticeable that the fake papers came almost exclusively from a certain country, used non-institutional email addresses more often than average, and referenced dubious literature significantly more often. However, these three features are only of limited use in identifying fake papers. We were also able to show that fake papers not only contaminate the scientific record while they are unidentified but also continue to do so even after retraction. Our results indicate that fake papers are well made and resemble honest papers even at the metadata level. Because they contaminate the scientific record in the long term and this cannot be fully contained even by their retraction, it is particularly important to identify them before publication. Further research on the topic of fake papers is therefore urgently needed. DOI: 10.1007/s00210-023-02850-6 | Wittau J, Seifert R. Metadata analysis of retracted fake papers in Naunyn-Schmiedeberg’s Archives of Pharmacology. Naunyn-Schmiedeberg’s Arch Pharmacol. 2024;397(6):3995–4011. |
| 57. | ● Bharat B. Aggarwal is an Indian-American biochemist who worked at MD Anderson Cancer Center from 1989 to 2015. His research focused on potential anti-cancer effects and therapeutic applications of herbs and spices. Aggarwal was particularly drawn to curcumin, a non-toxic compound found in turmeric that has long been staple in Ayurvedic systems of medicine. He authored more than 120 articles about the compound from 1994 to 2020. These articles reported that curcumin had therapeutic potential for a variety of diseases, including various cancers, Alzheimer’s disease and, more recently, COVID-19. In his 2011 book Healing Spices: How to Use 50 Everyday and Exotic Spices to Boost Health and Beat Disease, Aggarwal recommends “taking a daily 500 mg curcumin supplement for general health”.
MD Anderson Cancer Center initially appeared to be fully on board with Aggarwal’s work. At one point, their website’s FAQ page recommended visitors buy curcumin wholesale from a company for which Aggarwal was a paid speaker (see “Spice Healer”, Scientific American). However, in 2012 (following observations of image manipulation raised by pseudonymous sleuth Juuichi Jigen), MD Anderson Cancer Center launched a research fraud probe against Aggarwal which eventually led to 30 of Aggarwal’s articles being retracted. Only some of these studies were about curcumin specifically, but most concerned similar natural products. Website | Richardson R. The King of Curcumin: a case study in the consequences of large-scale research fraud. Blog. 2024. |
| 58. | 🞽 empirische Vergleichsstudie mit experimentellem Design, die die Genauigkeit und Fehleranfälligkeit von LLMs bei der Referenzgenerierung für systematische Reviews untersucht. The advent of artificial intelligence (AI) has led to significant advancements in various fields, including medical research. Large language models (LLMs), such as ChatGPT (OpenAI), could assist academic researchers in a variety of tasks, including writing scientific papers. These models have the potential to streamline the way researchers conduct literature searches, synthesize findings, and draft systematic reviews [1]. However, there is ongoing debate surrounding their reliability, ethical considerations, and appropriate use in academic publishing. Recently, editorials and opinion papers have been published addressing the use of LLMs in the scientific community. One such example is an editorial in The Lancet Digital Health, which discusses the potential benefits and challenges of implementing AI in medical research [2]. As the application of LLMs such as ChatGPT in research settings grows, concerns have arisen regarding their accuracy, the potential for generating misleading or false information, and the ethical implications of using AI-generated content without proper disclosure. Papers identified by LLMs were present in the original systematic reviews (precision) in 9.4% (13/139), 13.4% (16/119), and 0% (0/104) of cases for GPT-3.5, GPT-4, and Bard (P<.001), respectively. Conversely, 11.9% (13/109) of papers from the systematic reviews (recall) were retrieved by GPT-3.5, and 13.7% (15/109) by GPT-4. No paper from the systematic reviews was retrieved by Bard (P<.001; Table 3). The hallucination rates were, respectively, 39.6% (55/139), 28.6% (34/119), and 91.4% (95/104) for GPT-3.5, GPT-4, and Bard (P<.001). DOI: 10.2196/53164 | Chelli M, Descamps J, et al. Hallucination Rates and Reference Accuracy of ChatGPT and Bard for Systematic Reviews: Comparative Analysis. J Med Internet Res 2024;26:e53164. |
| 59. | 🞽 experimentelle Demonstrationsstudie We are not aware of any specific evidence that ChatGPT has been intentionally misused for fraud in scientific writing, but it is certainly a possibility. Few articles have focused on abstract ghostwriting and its implications for the academic ethics of using AI in manuscript preparation, as well as issues of originality and authorship [15-17]. An obvious emerging challenge that publishers are facing is the detection of AI-created text. To address this challenge, many publishers are implementing various tools and techniques. One approach involves using machine learning algorithms to analyze the language, structure, and other features of the text to determine whether it was likely to have been created by a human or a machine. As demonstrated above, the current AI detection tools were unable to detect an AI-generated manuscript. However, in the case of an AI-generated review, these tools were more accurate, labeling the text as “likely” or “highly likely” to have been generated by AI. Another approach to address AI-generated content involves developing ethical guidelines and standards, which can help ensure that AI-generated content is transparent and accountable. Despite these challenges, the use of AI in scientific writing is likely to become increasingly common in the future, and publishers will need to continue to adapt and evolve their approaches to ensure the integrity and quality of their publications. An effective measure to prevent fraud as described in this paper (ie, completely fabricated articles) could be the mandatory submission of data sets, potentially verified by local authorities. As we mentioned earlier, the ability of AI language models such as ChatGPT to generate coherent and realistic text has raised concerns about the potential for their misuse in creating fraudulent or misleading content. To the best of our knowledge, no paper has so far reported on fabricating a whole scientific article using AI.
DOI: 10.2196/46924 | Májovský M, Černý M, Kasal M, Komarc M, Netuka D. Artificial intelligence can generate fraudulent but authentic-looking scientific medical articles: pandora’s box has been opened. J Med Internet Res. 2023;25:e46924. |
| 60. | ● (Buch) Biomedizin ist das Hauptopfer von Schwindler und Fälscher, da sie allein etwa die Hälfte aller manipulierten Publikationen ausmacht. ... Book | Sabel BA. Fake-Mafia in der Wissenschaft. KI, Gier und Betrug in der Forschung. 1. Auflage. Verlag W. Kohlhammer; 2024. |
| 61. | 🞽 Editorial / Stellungnahme der Herausgeber In this issue, we are retracting two papers by Paolo Macchiarini and co-authors after receiving requests to do so from the new President of the Karolinska Institute (KI), Ole Petter Ottersen. In its final decision, the KI finds that the research reported in the 2011 Lancet paper and elements of a Review published in 2012 “constitutes scientific misconduct”. In his request for retraction, Ottersen states that ”no ethical permit had been obtained for the underlying research. The research was carried out without sufficient support by preclinical data, and the paper presents its data in a way that is unduly positive and uncritical. The clinical findings reported are not supported by source data.” This final verdict comes after years of uncertainty and turmoil at the KI with differing pronouncements on misconduct, which eventually led The Lancet to issue an Expression of Concern for the research paper on April 2, 2016. This final KI investigation report follows the conclusion by the Central Ethical Review Board's expert group on Oct 2, 2017, that six papers, including the two Lancet papers, contained material constituting scientific misconduct and that all authors were guilty of misconduct. After giving all authors the opportunity to respond and examining each author's contribution, conduct, and responsibility in detail, the KI came to a different conclusion on the authors' culpability. It divided author responsibility into three different categories: “responsible for misconduct”, “blameworthy or not beyond criticism”, and “not responsible for scientific misconduct and not blameworthy”. For the Lancet papers, Paolo Macchiarini, Philipp Jungebluth, Karl-Henrik Grinnemo, Jan Erik Juto, Alexander Seifalian, Tomas Gudbjartsson, and Katarina Le Blanc were found guilty of misconduct. This judgment was based on their intention to deceive at the time of publication, or their negligence in obtaining information or permits that were required. All other authors of the research paper—apart from Claire Crowley, who only became an author late in the process and was a student—were deemed blameworthy. The three co-authors of the Review paper were found not blameworthy and not guilty of misconduct. We welcome this thoughtful and clear conclusion of an extraordinary case. DOI: 10.1016/S0140-6736(18)31484-3 | The Lancet. The final verdict on Paolo Macchiarini: guilty of misconduct. The Lancet. 2018;392(10141):2. |
| 62. | 🞽 Editors Note: News / Reportage Disgraced surgeon Paolo Macchiarini, who faked research relating to dangerous and largely discredited tracheal transplants, has been handed a 16 month prison sentence in Italy for forging documents and abuse of office. Macchiarini made headlines around the world after claiming a major breakthrough for patients with failing windpipes, by “seeding” an artificial scaffold with a patient’s own stem cells, to generate a functioning trachea. But excitement at the prospect of a genuine medical advance turned to scandal when it emerged that Macchiarini had falsified results and misled hospital authorities regarding the health of those receiving the experimental procedures. The revelation prompted his research centre, the Karolinska Institute, to eventually disown his work and saw the Lancet retract two of his research papers. In 2016, following claims in the magazine Vanity Fair, the Karolinska Institute censured Macchiarini for lying in his CV, which contained “several falsehoods.” 3 In March 2017, the last of the three patients to have been given an artificial trachea by Macchiarini at Karolinska University Hospital died at a hospital in the US. DOI: 10.1136/bmj.l6676 | Day M. Disgraced tracheal transplant surgeon is handed 16 month prison sentence in Italy. BMJ. Nov 2019;367:l6676. |
| 63. | 🞽 Theoretische Modellstudie / Simulationsstudie Incentives drive cultural evolution. In the scientific community, incentives for publication quantity can drive the evolution of poor methodological practices. DOI: 10.1098/rsos.160384 | Smaldino PE, McElreath R. The natural selection of bad science. R Soc open sci. 2016;3(9):160384. Erratum for: R Soc Open Sci. 2016 Sep 21;3(9):160384. |
| 64. | 🞽 quantitativ-analytische Metastudie. Sie basiert auf bibliometrischen Datenanalysen (Scopus, Web of Science, Scimago) und Web-Scraping von Verlagsdaten, um die Belastung („strain“) im wissenschaftlichen Publikationssystem zu messen. Scientists are increasingly overwhelmed by the volume of articles being published. Total articles indexed in Scopus and Web of Science have grown exponentially in recent years; in 2022 the article total was approximately ~47% higher than in 2016, which has outpaced the limited growth - if any - in the number of practising scientists. Thus, publication workload per scientist (writing, reviewing, editing) has increased dramatically. We define this problem as the strain on scientific publishing. Given pressures on researchers to publish or perish to be competitive for funding applications, this strain was likely amplified by these offers to publish more articles. DOI: 10.48550/ARXIV.2309.15884 | Hanson MA, Barreiro PG, et al. The strain on scientific publishing. ArXiv:2309.15884. 2023. |
| 65. | 🞽 wissenschaftliche Stellungnahme / Letter to the Editor The “publish or perish” culture in academia has intensified trends in medical research, particularly around artificial intelligence (AI) and machine learning. This letter highlights how the pressure to publish positive findings during research trends, such as artificial intelligence in medicine, exacerbates the replication crisis. DOI: 10.1007/s10439-024-03625-7 | Al-Leimon O, Juweid ME. "Publish or Perish" Paradigm and Medical Research: Replication Crisis in the Context of Artificial Intelligence Trend. Ann Biomed Eng. 2025;53(1):3-4. |
| 66. | 🞽 konzeptionell-theoretische Analyse mit qualitativer Bildkritik The development, deployment, and regulation of AI crucially hinge on its public perception, which is increasingly driven by the production and consumption of digital media, not least through looking up “AI” online. The problem of AI hype in contemporary media is ultimately a problem of the circulation and amplification of a certain socio-technical imaginary through a digital ecosystem of human and nonhuman actors.
Human agents, along with their biases, “are inevitably involved in creative processes that integrate AI”. This raises broader reflection of the implications of generative AI qua active epistemic agent, participating in the creative process by offering pre-formed suggestions that prime human creativity. DOI: 10.1007/s43681-024-00474-x | Vrabič Dežman D. Promising the future, encoding the past: AI hype and public media imagery. AI Ethics. 2024;4:743–756. |
| 67. | 🞽 konzeptionell-theoretische Analyse mit Fokus auf Mechanismen und Folgen des AI-Hype The notion of artificial intelligence (AI) as a transformative technology has emerged as a dominating narrative, influencing the collective understanding of societies worldwide. This global AI enthusiasm, which is typically referred to as AI hype, spans academia, geopolitics, major technology firms, startups, investors, and even early adopters. The growing prominence of AI and associated technologies in press and media coverage, further intensifies this perception.
Many AI technologies are deliberately designed intentionally to be anthropomorphised, as a means to facilitate social interaction, improve user experience or for marketing and monetary purposes.
Over the years, an overwhelming influx of products and software solutions have emerged asserting the incorporation of AI within their offerings and its ability to transform the world. This surge in AI-related claims has given rise to a concern that parallels the historical notion of “snake oil,” which refers to extravagant and often unsubstantiated marketing of products. DOI: 10.1007/s43681-024-00461-2 | Markelius A, Wright C, et al. The mechanisms of AI hype and its planetary and social costs. AI Ethics. 2024;4(3):727-742. |
| 68. | 🞽 empirische, systematische Replikationsstudie, die die Wirksamkeit von Open Science-Praktiken für die Reproduzierbarkeit von KI-Forschung belegt A reproducibility crisis has been reported in science, but the extent to which it affects AI research is not yet fully understood. Therefore, we performed a systematic replication study including 30 highly cited AI studies relying on original materials when available. In the end, eight articles were rejected because they required access to data or hardware that was practically impossible to acquire as part of the project. Six articles were successfully reproduced, while five were partially reproduced. In total, 50% of the articles included was reproduced to some extent. The availability of code and data correlate strongly with reproducibility, as 86% of articles that shared code and data were fully or partly reproduced, while this was true for 33% of articles that shared only data. DOI: 10.48550/arXiv.2412.17859 | Gundersen OE, Cappelen O, et al. The unreasonable effectiveness of open science in AI: A replication study. arXiv:2412.17859. 2024. |
| 69. | ● Several recent studies have shown that many scientific results cannot be trusted. While the “reproducibility crisis” was first recognised in psychology, the problem affects most if not all branches of science.
Studies presented at leading conferences and published in high-impact journals have shown that AI research has not escaped the reproducibility problem.
Problems of reproducibility have been documented in image recognition, natural language processing, time-series forecasting, reinforcement learning, recommender systems and generative adversarial neural networks (Henderson et al., 2018; Lucic et al., 2018; Melis, Dyer and Blunsom, 2018; Bouthillier, Laurent and Vincent, 2019; Dacrema, Cremonesi and Jannach, 2019; Belz et al., 2021). Application domains of AI have not been spared: problems have been documented in medicine and social sciences. Website | OECD. Artificial Intelligence in Science: Challenges, Opportunities and the Future of Research. OECD Publishing; 2023. |
| 70. | 🞽 empirische Querschnittsstudie (cross-sectional analysis) Publications resulting from Coca-Cola- and Mars-sponsored research appear to skew the evidence towards solutions that favour industry interests by focusing on food components that can be manipulated and marketed by food companies. These food industry-funded publications can also distract from nutrition as a health issue by diverting public and policy attention to physical activity. Shaping the debate around scientific methods can be another strategy that corporations use for their benefit to raise doubts about the methods used in non-industry sponsored research. DOI: 10.1017/S1368980018002100 | Fabbri A, Holland TJ, et al. Food industry sponsorship of academic research: investigating commercial bias in the research agenda. Public Health Nutr. 2018;21(18):3422-3430. |
| 71. | 🞽 Expertenmeinung The long standing influence of food industry funding on nutrition research, researchers, and professional societies1 threatens the credibility of nutrition science. So much research is sponsored by industry that health professionals and the public may lose confidence in basic dietary advice. Two recent investigative articles in the New York Times illustrate the concerns about biases introduced by industry funding. The first3 described the support by Coca-Cola of academic researchers who founded a new organization, the Global Energy Balance Network, to promote physical activity as a more effective method than calorie control (eg, from avoiding sugary sodas) for preventing obesity. The second4 analyzed emails obtained through open-records requests to document how Monsanto, the multinational agricultural biotechnology corporation, on the one hand, and the organic food industry, on the other, recruited professors to lobby,write, and testify to Congress on their behalf. Mars Inc, for example, the maker of chocolate candies such as M&Ms, funds studies on the effects of cocoa flavanols on arterial function and blood pressure. One such study, published in September 2015,10(p1246) concluded that these compounds “improved accredited cardiovascular surrogates of cardiovascular risk, demonstrating that dietary flavanols have the potential to maintain cardiovascular health even in low-risk subjects.” The study investigators,10 one of whom is employed by Mars, followed well-established scientific protocols in conducting the research. Science is not the issue here. Marketing is the issue. DOI: 10.1001/jamainternmed.2015.6667 | Nestle M. Corporate Funding of Food and Nutrition Research: Science or Marketing? JAMA Intern Med. 2016;176(1):13-14. |
| 72. | 🞽 The main finding of this study is that scientific articles about commonly consumed beverages funded entirely by industry were approximately four to eight times more likely to be favorable to the financial interests of the sponsors than articles without industry-related funding. Of particular interest, none of the interventional studies with all industry support had an unfavorable conclusion. Our study also documented industry sponsorship was very common during the study period, indicating considerable potential for introduction of bias into the biomedical literature. In view of the high consumption rates of these beverages, especially among children, the public health implications of this bias could be substantial. DOI: 10.1371/journal.pmed.0040005 | Lesser LI, Ebbeling CB, et al. Relationship between funding source and conclusion among nutrition-related scientific articles. PLoS Med. 2007;4(1):e5. |
| 73. | 🞽 Narratives Review One prominent example of such a lack of equipoise arose in the NIH-supported study of Moderate Alcohol and Cardiovascular Health (NIH 2018). The study was designed to be the first randomized test of whether alcohol consumption could reduce cardiovascular disease. All other studies relating cardiovascular disease to alcohol consumption are observational and confounded by numerous lifestyle factors. While the study was indirectly funded by industry (an obvious conflict of interest), the issues with equipoise were deeper than this. The grant proposal itself reflected a bias toward finding alcohol was beneficial. The NIH canceled the study for a host of reasons, but among these were the fact that the study was designed to detect benefits but not harms. Such policy interest in the design of research can corrupt the science in ways that transparency and replicability may not fix. DOI: 10.1093/qopen/qoae013 Study: weak evidence | Krasovskaia E, Just DR. Food, nutrition, and related policy issues: Evidence-based policy and the credibility crisis. Q Open. 2025;5(3):qoae013. |
| 74. | 🞽 Editorial/Expertenmeinung Decision-making in the field of nutrition is based on published evidence, but when results are ambivalent, it is easier to opt for the status quo and ask for more studies. Because conflicts of interest (COI) in nutritional sciences can bias conclusions and negatively impact dietary recommendations and population health, it deserves more attention and requires careful analyses. To regard evidence properly and in a rigorous manner, COI in systematic reviews and meta-analyses must be evaluated systematically to guarantee the trustworthiness of nutrition-related studies, and must therefore be obligatory sub-analyses to reduce the risk of bias in data interpretation. DOI: 10.5662/wjm.v5.i4.175 Study: weak evidence | Lucas M. Conflicts of interest in nutritional sciences: The forgotten bias in meta-analysis. World J Methodol. 2015;5(4):175-178. |
| 75. | 🞽 Historische Analyse Together with other recent analyses of sugar industry documents, our findings suggest the industry sponsored a research program in the 1960s and 1970s that successfully cast doubt about the hazards of sucrose while promoting fat as the dietary culprit in CHD. DOI: 10.1001/jamainternmed.2016.5394 | Kearns CE, Schmidt LA, et al. Sugar industry and coronary heart disease research: a historical analysis of internal industry documents. JAMA Intern Med. 2016;176(11):1680. Erratum in: JAMA Intern Med. 2016 Nov 1;176(11):1729. |
| 76. | 🞽 Systematisches Review Systematic reviews (SRs) and meta-analyses represent an efficient and comprehensive way to access the available evidence on particular exposure–disease associations. However, publication bias related to authors' conflicts of interest in a SR may affect the reliability of its conclusions. Beverage and sugar industries tend to play leading roles in the reported conflicts of interest of some researchers actively publishing in the field of SSB and obesity. Therefore, we assessed whether the disclosure of potential financial conflicts of interest with these industries was associated with conclusions on SSB consumption and weight gain or obesity in published SRs. The main finding of our assessment was that those SRs with stated sponsorship or conflicts of interest with food or beverage companies were five times more likely to report a conclusion of no positive association between SSB consumption and weight gain or obesity than those reporting having no industry sponsorship or conflicts of interest. DOI: 10.1371/journal.pmed.1001578 Study: strong evidence | Bes-Rastrollo M, Schulze MB, et al. Financial conflicts of interest and reporting bias regarding the association between sugar-sweetened beverages and weight gain: a systematic review of systematic reviews. PLoS Med. 2013;10(12):e1001578. |
| 77. | ● Book | Russell WMS, Burch RL. The principles of humane experimental technique. Methuen & Co. Limited, London; 1959. |
| 78. | ● Website | The European Parliament and the Council. Directive 2010/63/EU of the European Parliament and of the Council of 22 September 2010 on the protection of animals used for scientific purposes Text with EEA relevance. |
| 79. | 🞽 The 3Rs principle of replacing, reducing and refining the use of animals in science has been gaining widespread support in the international research community and appears in transnational legislation such as the European Directive 2010/63/EU, a number of national legislative frameworks like in Switzerland and the UK, and other rules and guidance in place in countries around the world. At the same time, progress in technical and biomedical research, along with the changing status of animals in many societies, challenges the view of the 3Rs principle as a sufficient and effective approach to the moral challenges set by animal use in research. The fact that the increased availability of alternatives to animal models has not correlated inversely with a decrease in the number of animals used in research has led to public and political calls for more radical action. However, a focus on the simple measure of total animal numbers distracts from the need for a more nuanced understanding of how the 3Rs principle can have a genuine influence as a guiding instrument in research and testing.
DOI: 10.3389/fvets.2023.1185706 | Grimm H, Biller-Andorno N, et al. Advancing the 3Rs: innovation, implementation, ethics and society. Front Vet Sci. 2023;10:1185706. |
| 80. | 🞽 In recent decades, toxicology has experienced a transformation toward more ethical, efficient, and human-relevant methodologies. At the forefront of this transition are new approach methodologies (NAMs), an umbrella term encompassing non-animal approaches, including in vitro (cell- or tissue-based laboratory experiments), in silico (computational or AI-driven modeling), in chemico (chemical reactivity-based assays), and integrated strategies that, individually or in combination, enhance chemical safety assessment by providing more relevant or protective models, thereby supporting the reduction and eventual replacement of animal testing. As defined by the US EPA, NAMs include “any technology, methodology, approach (including computational/in silico models like QSARs—quantitative structure–activity relationship), or combination thereof that can be used to provide information on chemical hazard and risk assessment that avoids the use of intact animals” (EPA 2024). NAMs are inherently interdisciplinary, comprising advanced cell-based assays, organoids, organ-on-chip systems, omics technologies, QSAR modeling, and integrated approaches to testing and assessment (IATA), the latter being formal decision frameworks that combine diverse data types to draw regulatory conclusions. IATA are particularly relevant in regulatory toxicology, as they offer structured, weight-of-evidence approaches for chemical safety assessments (OECD 2020). The ethical motivation for NAMs originates from the 3Rs principle—replacement, reduction, and refinement—formulated by Russell and Burch (1959) and institutionalized in European legislation via Directive 2010/63/EU (The European Parliament and the Council 2010). This principle mandates that animal use in scientific research be minimized or replaced with alternatives whenever scientifically feasible (Grimm et al. 2023). However, the continued use of animals in research, despite scientific progress, has raised ethical concerns about whether the 3Rs are enough. Some scholars proposed ever larger frameworks, with 12Rs and spanning several ethical domains (animal welfare, social value, scientific integrity, and domain-intersecting Rs (Brink and Lewis 2023). Tools such as computational simulations, tissue chips, and real-world patient data are now essential parts of the biomedical research toolkit. These changes align with broader European strategies that prioritize 3Rs-aligned innovation and the development of alternatives across various research sectors (European Commission 2025). The broader adoption of NAMs beyond toxicology indicates a systemic shift in the life sciences, reinforcing the ethical, scientific, and societal momentum supporting their development. Continued interdisciplinary collaboration will be essential to address the remaining gaps (e.g., complex systemic toxicity, long-term exposure effects, and harmonization of global regulations), but the trajectory is clear. The ethical and sustainable transition in toxicology is underway, and each cluster of scholarship contributes to making toxicological science more humane, relevant, and resilient for the future. DOI: 10.1007/s00204-025-04209-7 | Petrescu-Mag RM, Vinken M, et al. Mapping the ethical and sustainable transition in toxicology: a bibliometric analysis and a review of new approach methodologies. Arch Toxicol. 2025;2 Oct. |
| 81. | 🞽 Over 90% of investigational drugs fail during clinical development, largely due to poor translation of pharmacokinetic, efficacy, and toxicity data from preclinical to clinical settings. The high costs and ethical concerns associated with translational failures highlight the need for more efficient and reliable preclinical tools. Human-relevant new approach methodologies (NAMs), including advanced in vitro systems, in silico mechanistic models, and computational techniques like artificial intelligence and machine learning, can improve translational success, as evident by several literature examples. Case studies on physiologically based pharmacokinetic modeling and quantitative systems pharmacology applications demonstrate the potential of NAMs in improving translational accuracy, reducing reliance on animal studies. Additionally, mechanistic modeling approaches for drug-induced liver injury and tumor microenvironment models have provided critical insights into drug safety and efficacy. We propose a structured and iterative "a priori in silico" workflow that integrates NAM components to actively guide preclinical study designa step toward more predictive and resource-efficient drug development. The proposed workflow can enable in vivo predictions to guide the design of reduced and optimal preclinical studies. The findings from these preclinical studies can then be used to refine computational models to enhance the accuracy of human predictions or guide additional preclinical studies, as needed. To conclude, integrating computational and in vitro NAM approaches can optimize preclinical drug development, improving translational accuracy and reducing clinical trial failures. This paradigm shift is further supported by global regulations, such as the FDA Modernization Act 2.0 and EMA directive 2010/63/EU, underscoring the regulatory momentum toward adopting human-relevant NAMs as the new standard in preclinical drug development. DOI: 10.1021/acsptsci.5c00162 | Mehta K, Maass C, et al. Modernizing preclinical drug development: the role of new approach methodologies. ACS Pharmacol Transl Sci. 2025;8(6):1513–1525. |
| 82. | 🞽 The wide range of translational success rates observed in our study might indicate that translational success is unpredictable; i.e. it might be unclear upfront if the results of primary animal studies will contribute to translational knowledge. However, the risk of bias of the included studies was high, and much of the included evidence is old, while newer models have become available. Therefore, the reliability of the cumulative evidence from current papers on this topic is insufficient. Further in-depth “umbrella”-studies of translational success rates are still warranted. These are needed to evaluate the probabilistic evidence for predictivity of animal studies for the human situation more reliably, and to determine which factors affect this process. Both perspectives are currently promoted by different groups of scientists. Neither group routinely refers to the total body of available evidence on animal-to-human predictability. This predictability, i.e. the translational success rates, can be determined quantitatively in various manners. For example, researchers can sample clinical trials from a registry, retrieve the supporting preclinical data and analyse to what extent the data correspond. Alternatively, they can sample preclinical studies with relevance to humans, and analyse subsequent clinical studies. Moreover, researchers can analyse the effects of a set of interventions (e.g. drugs) on specific outcomes (e.g. biochemistry, physiology and adverse events) in multiple species. DOI: 10.1186/s12967-019-1976-2 | Leenaars CHC, Kouwenaar C, et al. Animal to human translation: a systematic scoping review of reported concordance rates. J Transl Med. 2019;17(1):223. |
| 83. | 🞽 To develop new medical treatments, animal studies are used. However, there are questions and concerns about the usefulness of preclinical animal research. These so-called translational success rates vary between 0 and 100% and no clear relationship has been established with possible predictive factors such as animal species or field of research. This paper presents the main results of a conference that was organised in November 2019 as part of a research project that focuses on ways to improve predictability of translation from preclinical research to clinical studies. Based on the conference results and the findings from the research project, we define four points of attention that are crucial in the search for improved translational success rates: (a) optimising the methods and design of studies; (b) incorporation of the complexity of the human patient in research; (c) start with the patient rather than existing animal models as the gold standard; and (d) more and better collaboration within the chain from funding to pharmacy. We conclude that this requires improved organization and use of procedures, as well as a change of attitude and culture in research. DOI: 10.3390/ani10071170 | Ritskes-Hoitinga M, Leenaars C, et al. Improving Translation by Identifying Evidence for More Human-Relevant Preclinical Strategies. Animals (Basel). 2020;10(7):1170. |
| 84. | 🞽 We aimed to assess 2 measures of translation across various biomedical fields: (1) The proportion of therapies which transition from animal studies to human application, including involved timeframes; and (2) the consistency between animal and human study results. We included 122 articles, describing 54 distinct human diseases and 367 therapeutic interventions. Neurological diseases were the focus of 32% of reviews. Notably, our meta-analysis showed an 86% concordance between positive results in animal and clinical studies. -> 14 % nicht! We conclude that, contrary to widespread assertions, the rate of successful animal-to-human translation may be higher than previously reported. Nonetheless, the low rate of final approval indicates potential deficiencies in the design of both animal studies and early clinical trials. To ameliorate the efficacy of translating therapies from bench to bedside, we advocate for enhanced study design robustness and the reinforcement of generalizability.
DOI: 10.1371/journal.pbio.3002667 | Ineichen BV, Furrer E, et al. Analysis of animal-to-human translation shows that only 5% of animal-tested therapeutic interventions obtain regulatory approval for human applications. PLoS Biol. 2024;22(6):e3002667. |
| 85. | 🞽 Three-dimensional cultures, organoids, and microfluidic “organ-on-chip” platforms now replicate native tissue architecture and biochemical gradients, substantially improving the predictive power of in vitro testing. The pioneering lung-on-a-chip system introduced dynamic cyclic strain and epithelial–endothelial co-cultures to mimic nanoparticle deposition at the air–liquid interface, while subsequent intestine- and skin-on-chip designs have enabled real-time monitoring of barrier integrity and inflammatory mediator release. Microfluidics: Organ-on-Chip and Body-on-Chip Systems MPSs embed human cells within perfused microenvironments that maintain long-term tissue viability, intercellular communication, and physiologically relevant pharmacokinetic gradients. Liver- and kidney-on-chip platforms reproduce key metabolic and excretory functions, generating quantitative endpoints for evaluating DILI and nephrotoxicity. DOI: 10.3390/ijms262211202 | Ziemba B. Advances in cytotoxicity testing: from in vitro assays to in silico models. IJMS. 2025;26(22):11202. |
| 86. | 🞽 The New Approach Methodologies (NAMs), which include patient-derived organoids, organ-on-chip platforms, and AI-driven computational models, provide human-relevant solutions that can improve predictive validity, mechanistic insight, and ethics. Importantly, NAMs are not positioned merely as replacements; in practice they often function as risk-reducing complements that can de-risk clinical translation by providing additional human-relevant evidence earlier in the pipeline. Organ-on-chip systems mitigate several of the translational limitations of organoids by merging microfluidics with tissue engineering to recreate dynamic physiological conditions. These platforms afford precise control over variables such as shear stress, nutrient gradients, and mechanical cues, parameters that are crucial for modeling in vivo tumor physiology. DOI: 10.3390/biomimetics10120796 | Mirlohi MS, Yousefi T, et al. Integrating new approach methodologies (Nams) into preclinical regulatory evaluation of oncology drugs. Biomimetics. 2025;10(12):796. |
| 87. | ● Ex vivo studies where tissue slices are cultured outside the host organism, experiments on fertilized eggs, organs on chip studies are more reliant than in vitro studies which are often based on monolayer culture of cells. Recently, there have been studies to develop multiple organ on a chip interconnected devices which could essentially be called body-on-chip to develop a model of whole organism rather than studying the effects on individual organs. With intricate designs to carefully recreate biological systems, this could to a larger extent eliminate animal based testing. DOI: 10.5772/intechopen.111806 Book | Revi N, Oladejo O, et al. In vitro, in vivo and ex vivo models for toxicity evaluation of nanoparticles: advantages and disadvantages. In: Muzibur Rahman M, et al. (Ed.). Toxicity of Nanoparticles - Recent Advances and New Perspectives. IntechOpen; 2024. |
| 88. | 🞽 Following guidelines formulated by the Innovation and Quality (IQ) Consortium – a collaboration of biopharmaceutical companies – and supplementing these with a quantitative assessment of predictive accuracy, they showed that the Liver-Chip could faithfully flag the liver’s pathophysiological response to known hepatotoxic drugs. Specifically, the researchers demonstrated that the Liver-Chip was able to detect hepatotoxic drugs that slipped through animal testing with 87% sensitivity. DOI: 10.1080/17460441.2023.2255127 | Levner D, Ewart L. Integrating Liver-Chip data into pharmaceutical decision-making processes. Expert Opinion on Drug Discovery. 2023;18(12):1313–1320. |
| 89. | 🞽 Machine learning algorithms can predict physicochemical parameters required to develop in silico models where experimental data are unavailable. Integrating machine learning with PBPK carries the potential to revolutionize the field of drug discovery and development and environmental risk. DOI: 10.3390/ijerph20043473 | Deepika D, Kumar V. The role of “physiologically based pharmacokinetic model (Pbpk)” new approach methodology (Nam) in pharmaceuticals and environmental chemical risk assessment. IJERPH. 2023;20(4):3473. |
| 90. | 🞽 Accurate predictions of internal dosimetry are of paramount importance in driving the acceptance of advanced (animal-free) testing methodologies for chemical safety evaluations. Internal dosimetry predictions are also instrumental in bridging the gap between in vitro toxicity and in vivo dose–response relationships or drug potency data. Organ concentrations can be derived from studies with laboratory animals or in an animal-free approach using physiologically based kinetic (PBK) modeling. DOI: 10.1007/s00204-024-03775-6 | De Bruijn VMP, Rietjens IMCM. From hazard to risk prioritization: a case study to predict drug-induced cholestasis using physiologically based kinetic modeling. Arch Toxicol. 2024;98(9):3077–3095. |
| 91. | 🞽 Integrating AI into vaccine development significantly accelerates antigen discovery, enhances predictive accuracy, and optimizes experimental workflows. Advanced AI methodologies, such as CNNs, recurrent neural networks, transformer-based models, and graph neural networks, have consistently outperformed traditional epitope prediction tools in terms of precision and recall. Specifically, deep learning models like MUNIS and GraphBepi have demonstrated superior performance in identifying novel immunogenic epitopes, which have been rigorously validated in experimental settings, highlighting their substantial translational potential.
One illustrative example of modern AI in vaccine design is VenusVaccine, a deep learning system specifically developed for epitope-based immunogenicity prediction.
VenusVaccine’s architecture employs a “dual attention mechanism” to integrate two data modalities: protein sequence and structure. In practice, the model encodes the amino acid sequence of an antigen as well as its 3D structural representation (the latter obtained from experimental data or predictions). DOI: 10.1038/s41541-025-01258-y | Villanueva-Flores F, Sanchez-Villamil JI, et al. AI-driven epitope prediction: a systematic review, comparative analysis, and practical guide for vaccine development. npj Vaccines. 2025;10(1):207. |
| 92. | 🞽 DOI: 10.1289/ehp.1205784 | Tice RR, Austin CP, Kavlock RJ, Bucher JR. Improving the human hazard characterization of chemicals: a Tox21 update. Environ Health Perspect. 2013;121(7):756-765. |
| 93. | 🞽 A new method of obtaining human metabolism data known as microdosing has been developed which will permit smarter candidate selection by taking investigational drugs into humans earlier. Microdosing depends on the availability of two ultrasensitive 'big-physics' techniques: positron emission tomography (PET) can provide pharmacodynamic information, whereas accelerator mass spectrometry (AMS) provides pharmacokinetic information. Microdosing allows safer human studies as well as reducing the use of animals in preclinical toxicology. DOI: 10.1038/nrd1037 | Lappin G, Garner RC. Big physics, small doses: the use of AMS and PET in human microdosing of development drugs. Nat Rev Drug Discov. 2003;2(3):233–340. |
| 94. | 🞽 Narratives Review/Expertenmeinung DOI: 10.1038/s44271-023-00003-2 Study: weak evidence | Korbmacher M, Azevedo F, et al. The replication crisis has led to positive structural, procedural, and community changes. Communications Psychology. 2023;1:3. |
| 95. | 🞽 Expertenmeinung DOI: 10.3399/bjgp19X706721 Study: weak evidence | Atenstaedt R. Should we continue pairing the term 'anecdotal' with evidence? Br J Gen Pract. 2019 Nov 28;69(689):596. |
| 96. | 🞽 Expertenmeinung DOI: 10.29333/ajqr/15880 Study: weak evidence | Gupta A. Is Anecdotal Evidence Science?. Am J Qualitative Res. 2025;9(1):75-85. |
| 97. | 🞽 Experimentelle, quantitative Entwicklungspsychologie‑Studie DOI: 10.3389/fdpys.2024.1324704 | Nissel J, Woolley JD. Anecdata: children’s and adults’ evaluation of anecdotal and statistical evidence. Frontiers in Developmental Psychology. 2024;2. |
| 98. | 🞽 Narratives Review DOI: 10.1111/j.1471-1842.2009.00848.x Study: weak evidence | Grant MJ, Booth A. A typology of reviews: an analysis of 14 review types and associated methodologies. Health Info Libr J. 2009;26(2):91‑108. |
| 99. | 🞽 methodologische Meta‑Forschung DOI: 10.1016/j.jclinepi.2019.01.004 | Faggion CM Jr, Diaz KT. Overview authors rarely defined systematic reviews that are included in their overviews. J Clin Epidemiol. 2019;109:70‑79. |
| 100. | 🞽 Querschnitts-Metaforschungsstudie DOI: 10.1016/j.jclinepi.2023.111229 | Rethlefsen ML, Brigham TJ, et al. Systematic review search strategies are poorly reported and not reproducible: a cross-sectional metaresearch study. J Clin Epidemiol. 2024;166:111229. |
| 101. | 🞽 Narratives Review DOI: 10.3389/fpls.2017.01845 Study: weak evidence | Chedraoui S, Abi‑Rizk A, et al. Capparis spinosa L. in a systematic review: a xerophilous species of multi values and promising potentialities for agrosystems under the threat of global warming. Front Plant Sci. 2017;8:1845. |
| 102. | 🞽 Expertenmeinung DOI: - Study: weak evidence | The periodic health examination. Canadian Task Force on the Periodic Health Examination. Can Med Assoc J. 1979;121:1193–1254. |
| 103. | 🞽 Expertenmeinung DOI: 10.1378/chest.95.2_Supplement.2S Study: weak evidence | Sackett DL. Rules of evidence and clinical recommendations on the use of antithrombotic agents. Chest. 1989;95:2S–4S. |
| 104. | 🞽 Narratives REview DOI: 10.1097/PRS.0b013e318219c171 Study: weak evidence | Burns PB, Rohrich RJ, Chung KC. The levels of evidence and their role in evidence-based medicine. Plast Reconstr Surg. 2011;128(1):305-310. |
| 105. | ● Website | Oxford Centre for Evidence-Based Medicine: Levels of Evidence (March 2009). |
| 106. | 🞽 Expertenmeinung DOI: 10.1136/ebmed-2016-110401 Study: weak evidence | Murad MH, Asi N, et al. New evidence pyramid. BMJ Evidence-Based Medicine. 2016 Aug;21(4):125-127. |
| Wir haben Studien und Bücher zu Ernährung und Gesundheit nach folgenden 3 Evidenz-Kategorien markiert: grün=starke Beweiskraft, gelb=mittlere, violett=schwache. Die restlichen Quellen sind grau markiert. Eine ausführliche Erklärung finden Sie in unserem Beitrag: Wissenschaft oder Glaube? So prüfen Sie Publikationen. | ||
Kommentare