Ärztin nutzt KI falsch und erhält eine unbrauchbare Antwort

KI im ärztlichen Alltag: Ein Guide für bessere Prompts

Erfahre, wie du Antworten von KIs auf einfache Weise verbessern kannst.

geschrieben von Roman Sager
14. Januar 2026
(1)
122 Views

Inhalt

Keine Überschriften im Beitrag gefunden.

Keypoints

Es ist 3:15 Uhr morgens. Du bist im Dienst und wirst unsanft aus dem Schlaf geklingelt. Am anderen Ende der Leitung sagt ein Kollege nur: „Patient XY auf der 4 hat starke Bauchschmerzen. Was soll ich machen?“

In deinem Kopf herrscht eine Mischung aus Leere, Verwirrung und Ärger. Warum? Weil dir alles fehlt, was du für eine professionelle Entscheidung brauchst. Wie alt ist der Patient? Welche Vorerkrankungen gibt es? Wie sehen die Vitalparameter aus? Ohne Kontext kannst du keine sichere Anweisung geben. Du fühlst dich überfahren, und das Risiko für eine Fehlentscheidung ist massiv.

Genau so „fühlt“ sich eine Künstliche Intelligenz (KI), wenn du ihr eine schlechte Frage stellst. Ganz nach dem Prinzip „Müll rein, Müll raus“ ist es bei ChatGPT und Co extrem wichtig, wie du Fragen formulierst und welchen Kontext du gibst. Ganz ähnlich wie bei einem Telefon-Konsil, ist die Qualität der Antwort massgeblich vom Input abhängig. Da AI immer wichtiger wird und unaufhaltsam Einzug ins Arztbüro hält, soll dieser Artikel eine Grundlage für einen besseren Umgang mit AI bieten, für hoffentlich bessere Antworten.

Status Quo 2026: Ein Genie im Wartezimmer

Binnen weniger Jahre haben sich Large-Language-Models, wie ChatGPT, Claude oder Gemini, von amüsanten und dümmlichen Chatbots zu Profis in praktisch allen Feldern entwickelt. Die Modelle, die wir heute (Stand Januar 2026) nutzen, sind Hochleistungsmaschinen mit unglaublichen Fachkenntnissen und beängstigenden Fähigkeiten. Einige Beispiele:

  • IQ auf Genie-Level: Aktuelle Modelle erreichen in bestimmten Reasoning-Tests Werte, die menschlichen IQ-Scores von bis zu 148 entsprechen würden – damit liegen sie im Bereich, der bei Menschen als hochbegabt gilt [1].
  • Das perfekte Examen: Systeme wie OpenEvidence haben das US-Staatsexamen (USMLE) mittlerweile mit Bravour bestanden und erreichen Scores von 100%. Wissenslücken gehören der Vergangenheit an [2].
  • Präziser als Experten: Studien zeigen, dass KI bei hochkomplexen diagnostischen Rätseln vom New England Journal of Medicine (NEJM) (CPC-Fällen) eine Genauigkeit von ca. 85,5 % erreicht, während erfahrene Ärzte bei denselben Fällen oft signifikant schlechter abschneiden [3].
Arzt erstellt einen Befund mit KI und versendet ihn per Fax
Mit KI diagnostiziert, mit Fax versendet: Der klinische Alltag im Wandel. Quelle: Google Nano Banana Pro

Aber Vorsicht: Die Entwicklung ist so rasant, dass diese Zahlen morgen schon wieder veraltet sein können. Der bisherige Leistungszuwachs war exponentiell und es ist kein Halten in Sicht. Es ist daher nur logisch, dass schon jetzt, laut der American Medical Association (AMA), ein Großteil der Ärzte KI-Tools im Alltag nutzt. Viele tun dies jedoch noch im Stillen („Shadow AI“), ohne es offen zuzugeben.

Was ist eigentlich ein „Prompt“?

Bevor wir tiefer eintauchen, klären wir das Wichtigste: Was ist eigentlich ein Prompt? Ganz simpel: Ein Prompt ist die Anweisung, die du der KI gibst. Es ist der Text, den du in das Eingabefeld tippst – deine Frage, dein Auftrag oder deine Bitte an das System.

Ohne Prompt passiert gar nichts; mit einem schlechten Prompt passiert das Falsche; mit einem präzisen Prompt nutzt du die volle Power des Systems.

Dein Fahrplan zum perfekten Prompt

Wie sieht also ein guter Prompt aus? Seit Beginn der KI-Entwicklung haben sich Forscher genau diese Frage gestellt und nützliche Konzepte erarbeitet, um Prompts zu optimieren. Eines dieser Modelle ist das RISEN-Modell.

Das RISEN-Modell ist eine strukturierte Vorgehensweise für das Erstellen von Prompts. Das Akronym setzt sich aus folgenden Bestandteilen zusammen, um die Präzision und Relevanz der Antwort zu erhöhen:

  • R (Role / Rolle): Wer soll die KI sein?
  • I (Instructions / Anweisung): Was genau soll getan werden?
  • S (Steps / Schritte): In welcher Reihenfolge?
  • E (End Goal / Endziel): Was ist das gewünschte Ergebnis?
  • N (Narrowing / Eingrenzung): Welche Einschränkungen gibt es?

Ein Beispiel aus der Praxis: Guideline-Check

Stell dir vor, du möchtest schnell wissen, ob es Unterschiede zwischen den europäischen (ESC) und amerikanischen (AHA) Leitlinien zur Herzinsuffizienz-Therapie gibt.

Beispiel für einen schlechten Prompt

Warum das problematisch ist: Die KI weiß nicht, welche Version der Guidelines gemeint ist, für wen die Antwort geschrieben werden soll (Patient oder Arzt) und in welchem Format du die Infos brauchst. Das Ergebnis wird oft oberflächlich oder veraltet sein.

So sieht ein optimierter Prompt aus (nach RISEN)

  • R (Role): „Du bist ein spezialisierter Kardiologe an einem Universitätsklinikum.“
  • I (Instructions): „Vergleiche die aktuellen Empfehlungen (Stand Januar 2026) der ESC und der AHA zur medikamentösen Therapie der Herzinsuffizienz (HFrEF).“
  • S (Steps): „Gehe schrittweise vor: Analysiere erst die Gemeinsamkeiten, dann die Unterschiede in den Dosierungsempfehlungen und ziehe ein Fazit.“
  • E (End Goal): „Erstelle eine tabellarische Übersicht, die ich für ein kurzes Team-Update nutzen kann.“
  • N (Narrowing): „Nutze nur Quellen nach 2023. Fass dich kurz und präzise.“

Zusammenhängend sieht der Prompt für die KI so aus:

Warum funktioniert das? Durch die Zuweisung einer Rolle und das Erzwingen von Denkschritten reduzierst du das Risiko für Halluzinationen (erfundene Fakten) drastisch.

Ausblick: Vom Chatten zum Handeln

Was wir heute „Prompting“ nennen, ist erst der Anfang. Die Entwicklung ist so rasant, dass wir uns bereits jetzt von einfachen Chat-Fenstern wegbewegen, hin zu mächtigen KI-Agenten, welche ganze Workflows, also zusammenhängende Arbeiten, für dich ausführen können. Die Zeitersparnis und die Qualitätszunahme in der Medizin wären gigantisch!

Bis dies in der Medizin aber flächendeckend angekommen ist, insbesondere in Europa, dauert es „leider“ noch ein Weilchen. Wir müssen diese Zeit nutzen, um uns zu überlegen, wie wir mit dieser mächtigen Technologie umgehen wollen, was potentielle Chancen sind, aber auch potentielle Risiken. Einen ersten Schritt hast du mit dem Lesen dieses Artikels bereits getan.

Sicherheit geht vor

Bevor du jetzt loslegst, ein Wort der Mahnung. Die meisten Anbieter von KI wie ChatGPT nutzen die eingegebenen Daten zur Verbesserung der Technologie. Deshalb solltest du ein paar Dinge beachten:

Quellenverzeichnis

  1. Singhal, K., et al. (2023). Large language models encode clinical knowledge. Nature Medicine. Zur Studie
  2. OpenEvidence Team (2025). OpenEvidence Creates the First AI in History to Score a Perfect 100% on the USMLE. OpenEvidence Announcements. Zum Bericht
  3. Nori, H., et al. (2025/2026). Microsoft AI Diagnoses Complex Medical Cases with 85% Accuracy (Microsoft AI Diagnostic Orchestrator). Siehe auch Zusammenfassungen in MobiHealthNews oder 2 Minute Medicine. Zum Artikel

Deine Erfahrung zählt

Hast du schon Erfahrungen mit Prompting gemacht? Welche Strategien funktionieren für dich am besten? Schreib uns einen Kommentar oder lass uns wissen, ob dich ein Deep-Dive zum Thema „Datenschutz und lokale KI-Modelle“ interessiert!

Melde dich an, um eine Bewertung abzugeben.

Neueste Blogbeiträge

Neue Funktion: Befundformulare

Wir stellen unsere neuen Befundformulare vor: Klicken statt tippen, Live-Vorschau, Normalbefund und eigene Voreinstellungen inklusive. Aktuell in Beta – dein Feedback formt die Zukunft.

(1)
16
02. Jan. 2026

OpenEvidence im Härtetest

OpenEvidence oder ChatGPT? Wir haben getestet, welcher Chatbot bei der Suche nach klinischen Studien zuverlässiger ist. Das Ergebnis ist überraschend!

(2)
62
04. Dez. 2025