OpenEvidence ist ein führender, KI-gestützter Chatbot für verifizierte Mediziner in den USA und wird oft als ChatGPT für medizinisches Personal bezeichnet. Wir haben den Härtetest gemacht und Open Evidence unter die Lupe genommen. Welcher Chatbot ist für medizinische Fragen am besten geeignet? Und welches System macht am wenigsten Fehler?
Die heimliche Revolution im Arztzimmer
In den letzten Jahren hat die Künstliche Intelligenz extreme Fortschritte gemacht. Sowohl Patienten als auch Ärzte greifen immer häufiger auf ChatGPT und Co. zurück, um Informationen zu finden, Diagnosen zu stellen oder Arbeitsprozesse zu beschleunigen.
Diese Technologie verspricht zwar eine enorme Erleichterung und eine potenzielle Qualitätssteigerung, birgt aber auch Risiken: Chatbots können Fehler machen und sich irren, ohne dies zu erkennen. Angesichts dieser Problematik hat sich Open Evidence zum Ziel gesetzt, die Fehlerrate zu minimieren und einen spezialisierten Chatbot eigens für das Gesundheitspersonal zu entwickeln.
Wir haben Open Evidence auf die Probe gestellt und mit anderen Chatbots verglichen, um zu sehen, was dahinter steckt und ob es sich lohnt, auf Open Evidence umzusteigen.
Warum Open Evidence besser sein sollte
Bevor wir zu den Ergebnissen kommen, kurz zur Theorie. Warum gilt Open Evidence überhaupt als überlegen?
- Die Allrounder (ChatGPT, Gemini, Claude etc.): Sie durchsuchen das offene Web. Das Problem: Medizinische Fachliteratur liegt oft hinter Paywalls (The Lancet, NEJM). Die Theorie besagt, dass ChatGPT hier nur das öffentlich verfügbare, also die Abstracts (Zusammenfassungen), sieht und nicht die ganzen Journals. Zudem sind sie nicht spezifisch darauf trainiert, Studien zu suchen und deren Relevanz zu beurteilen.
- Der Spezialist (Open Evidence): Dieses Tool hat Partnerschaften mit Verlagen (Elsevier, Wiley etc.) und hat quasi den "Schlüssel zur Bibliothek". Es kann den Volltext lesen und greift bei seiner Suche auf diese Bibliothek an lizenzierten Journals zurück. Somit ist die Gefahr von erfundenen Quellen oder falschen Links minimiert, da im Hintergrund diese riesige und aktiv gewartete Bibliothek an Journals steht.
Klingt in der Theorie nach einem klaren Vorteil für Open Evidence. Doch wie sieht es in der Praxis aus, wenn man eine konkrete klinische Frage stellt?
Der Härtetest
Wir wollten wissen: Wer liefert mir präziser und vollständiger die aktuelle Studienlage? Wir haben ChatGPT, Google Gemini und Open Evidence ausführlich getestet und unter anderem mit der exakt gleichen Frage gefüttert (Stand November 2025).
Hier sind die Resultate:
Platz 3: Google (Die Pflicht erfüllt)
Google lieferte solide Ergebnisse. Wichtige Studien wie FINEARTS-HF (2024) und das STEP-HFpEF Programm wurden gefunden und korrekt verlinkt. Auch der geforderte Zeitrahmen von 2 Jahren wurde eingehalten. Zwar wurden ältere Studien erwähnt, aber als solche gekennzeichnet. Allerdings wurde eine wichtige Studie (SUMMIT) übersehen. Solide, aber nicht vollständig.
Platz 2: Open Evidence (Der theoretische Experte)
Hier zeigten sich überraschende Schwächen in der Bedienung.
- Das Positive: Open Evidence zitierte relevante Studien korrekt (FINEARTS, SUMMIT, STEP). Es bot sogar proaktiv an, Subgruppenanalysen durchzuführen – ein Hinweis darauf, dass es tiefen Zugriff auf die Daten hat.
- Das Negative: Es hielt sich nicht an die Vorgabe „letzte 2 Jahre“. Es listete auch ältere Studien wie EMPEROR-Preserved und DELIVER (2021/2022) als Haupttreffer auf, ohne zu deklarieren, dass es sich um ältere Studien handelt.
- Das "Link-Problem": Zwar verlinkte Open Evidence korrekt auf die Papers. Doch klickt man als Nutzer ohne teures Journal-Abo darauf, landet man oft vor einer Paywall. Dass die KI das Paper lesen durfte, bringt mir als Nutzer nichts, wenn ich den Text selbst nicht prüfen kann.
Platz 1: ChatGPT (Der überraschende Sieger)
ChatGPT hat in diesem Test beeindruckt und sich den Sieg geholt.
- Präzision: Es hielt sich strikt an den Zeitrahmen ("letzte 2 Jahre").
- Vollständigkeit: Es nannte alle relevanten neuen Studien: FINEARTS-HF (Finerenon), STEP-HFpEF (Semaglutid, mit/ohne Diabetes) und SUMMIT (Tirzepatid). Alle Links funktionierten tadellos.
- Kontext: Es erkannte korrekt, dass Klassiker wie EMPEROR-Preserved älter sind und ordnete sie entsprechend ein.
- Bonus: Es lieferte sogar nicht-pharmakologische RCT-Studien (z. B. zu Training bei HFpEF) und funktionierende Links.
Warum der Allrounder gewinnt
Dieses Experiment zeigt, wie massiv sich die "normalen" KI-Modelle in den letzten Monaten verbessert haben hinsichtlich Zitierung und Qualität der Antworten.
- Prompt-Adherence: ChatGPT versteht unsere Anweisungen (z. B. Zeitfilter) oft besser als die spezialisierten Modelle. Open Evidence wirkte hier starrer.
- Nutzen vs. Zugriff: Der theoretische Vorteil von Open Evidence (Volltext-Zugriff) verpufft, wenn ich nur eine Übersicht suche. Schlimmer noch: Wenn die KI mir eine Information aus dem Volltext liefert, ich diesen Link aber nicht öffnen kann (weil mein Krankenhaus kein Abo für genau dieses Journal hat), bleibt ein Gefühl der Unvollständigkeit.
- Halluzinationen sind seltener geworden: Das alte Argument, dass ChatGPT Quellen erfindet, trifft bei den neuesten Modellen (mit aktiver Web-Suche) immer weniger zu. Im Test waren alle Links korrekt.
„Der theoretische Vorteil von Open Evidence (Volltext-Zugriff) verpufft, wenn ich nur eine Übersicht suche.“
Für wen ist Open Evidence geeignet?
Für 95 % der klinischen Fragen und für die Literaturrecherche ist ein moderner Allrounder wie ChatGPT (in der aktuellen Version) derzeit nicht nur "gut genug", sondern in der Bedienung und Präzision oft sogar überlegen. Es liefert funktionierende Links, hält sich an Zeitvorgaben und bietet den breiteren Kontext.
Wann lohnt sich Open Evidence trotzdem?
Derzeit scheint das System primär für Personen im US-Gesundheitssystem geeignet, da es dort zusätzliche Datenschutzbestimmungen berücksichtigt, die in Europa aktuell keine Relevanz besitzen. Angesichts der rapiden Entwicklung bleibt abzuwarten, wie sich die Situation in wenigen Monaten präsentieren wird.
Deine Meinung ist gefragt
Wie sind deine Erfahrungen? Hast du Open Evidence getestet und bist zu einem anderen Ergebnis gekommen? Diskutiere mit uns auf LinkedIn oder schreibe uns.


