Nature npj Digital Medicine warnt vor unregulierten klinischen KI-Agenten: Was das neue UNDCS-Governance-Modell für Krankenhäuser und Health-IT bedeutet
23.02.2026

Ein aktueller Beitrag in npj Digital Medicine definiert mit „Unconfined Non-Deterministic Clinical Software“ (UNDCS) eine neue Risikoklasse für klinische KI-Agenten: Systeme, die ohne feste Labelgrenzen und mit stochastischem Verhalten Entscheidungen über mehrere Workflows und Datenquellen hinweg treffen. Der Artikel argumentiert, dass klassische SaMD- und Medizinprodukterecht-Logiken diese Agenten nur unzureichend erfassen. Für Krankenhäuser, Health-IT-Anbieter und Versicherer entsteht damit unmittelbarer Handlungsdruck: Sie müssen Governance, Haftung, Validierung und Monitoring explizit auf agentische, nicht-deterministische KI-Workflows zuschneiden, wenn sie LLM-basierte Assistenten oder autonome Prozessketten im Versorgungsalltag skalieren wollen.
Nature npj Digital Medicine warnt vor unregulierten klinischen KI-Agenten: Was das neue UNDCS-Governance-Modell für Krankenhäuser und Health-IT bedeutet
Hintergrund: Warum klassische SaMD-Regeln an Grenzen stoßen
Am 23. Februar 2026 veröffentlicht npj Digital Medicine einen Fachbeitrag, der die Regulierung klinischer KI im „Zeitalter der Agenten“ neu aufspannt. Im Zentrum steht eine neue Kategorie: Unconfined Non-Deterministic Clinical Software (UNDCS).
Bisherige Software-as-a-Medical-Device-(SaMD)-Rahmenwerke gehen implizit davon aus, dass:
Input- und Output-Räume einer Anwendung begrenzt und gut beschreibbar sind (z.B. Diagnose A/B, Risikostufe niedrig/mittel/hoch), und
das System – bei gleichem Input – im Wesentlichen deterministisch reagiert.
Mit generativer KI und agentischen Systemen gilt das nicht mehr. LLM-basierte Assistenten können:
freie Texteingaben interpretieren,
eigenständig Daten aus mehreren Systemen kombinieren,
Folgeaktionen planen (z.B. Termine, Verordnungen, Dokumentation),
und aufgrund von Sampling-Strategien (Temperatur, Top‑k, etc.) nicht-deterministisch antworten.
Damit verschiebt sich das Risiko: Hersteller können Verhalten nicht mehr vollständig über feste Label oder deterministische Testsuiten absichern. Genau hier setzt das UNDCS-Konzept an.
Was ist „Unconfined Non-Deterministic Clinical Software“ (UNDCS)?
Der Beitrag unterscheidet drei Generationen klinischer Software:
Deterministic Clinical Software (DCS)
Klassische, regelbasierte CDS-Systeme mit klaren Eingabe-Output-Paaren (If-Then-Logik, Scoring-Modelle). Vollständig testbar gegen vordefinierte Datensätze.
Confined Clinical Software (CCS)
Machine-Learning- oder Deep-Learning-Modelle mit begrenztem Labelraum (z.B. Klassifikation von Bildbefunden). Variabilität ist vorhanden, aber Outputs sind weiterhin auf ein geschlossenes Set begrenzt.
Unconfined Non-Deterministic Clinical Software (UNDCS)
Generalisierte, meist LLM-basierte Systeme mit:
- offenem semantischem Output-Raum (freier Text, Empfehlungen, Pläne), und
- explizit oder implizit nicht-determiniertem Verhalten (Temperatur, stochastisches Sampling, numerische Ungenauigkeiten).
Beispiele für UNDCS:
Ein generativer Dokumentationsassistent, der aus Gesprächs- und Aktennotizen automatisch Arztbriefe, ICD-Codes und Abrechnungsvorschläge erzeugt.
Ein multimodaler Agent, der Laborwerte, Bildbefunde und Patientenhistory kombiniert und Priorisierungsempfehlungen für das Behandlungsteam ausgibt.
Ein Patienten-Chatbot, der sowohl medizinische FAQs als auch Terminsteuerung, Vorbefragung und Triage übernimmt.
Gemeinsam ist diesen Systemen: Sie verhalten sich nicht mehr wie ein klassisches „Medizinprodukt mit Label“, sondern wie ein offener, lernähnlicher Akteur im Versorgungsworkflow.
Warum das neue Modell für Governance und Haftung entscheidend ist
1. Label-basierte Regulierung greift zu kurz
Bisherige Medizinprodukterecht-Logiken klassifizieren Software primär über die angegebene Zweckbestimmung des Herstellers. Für UNDCS ist das problematisch:
General Purpose LLMs werden häufig mit allgemein gehaltenen Disclaimern versehen („nicht zur Diagnose verwenden“),
faktisch werden sie über Plugins, Agenten-Frameworks oder lokale Integrationen aber sehr wohl in klinischen Kontexten genutzt.
Für Kliniken und Versicherer heißt das: Haftungsrisiken verlagern sich von Herstellern hin zu Anwenderorganisationen, wenn die tatsächliche Nutzung weit über die deklarierte Zweckbestimmung hinausgeht.
2. Nicht-deterministisches Verhalten erschwert klassische Validierung
Standard-Validierungsansätze (einmaliges Testset, deterministische Re-Outputs) sind für UNDCS unzureichend. Der Artikel schlägt vor, u.a. auf:
wiederholtes Sampling mit statistischer Auswertung,
LLM-as-a-Judge-Schleifen zur Qualitätsbewertung von Outputs,
und Stress-Tests („Red Teaming“) gegen Prompt-Injection, Jailbreaks und Edge-Cases
zu setzen.
Damit wird Governance von einem „Einmal-Zulassungsakt“ zu einem laufenden Audit- und Monitoring-Prozess.
3. Systemische Risiken über den gesamten Versorgungspfad
Selbst scheinbar „nicht-klinische“ Anwendungen (z.B. KI-Schreibassistenten oder administrative Agenten) können klinische Effekte entfalten:
falsche Kodierung → fehlerhafte Abrechnungen, ungerechtfertigte Kostenerstattungen,
unpräzise oder halluzinierte Diagnosetexte → falsche Therapieentscheidungen downstream,
irreführende Patientenkommunikation → verzögerte Notfallversorgung.
Für Versicherer heißt das: Risiko- und Pricing-Modelle müssen KI-induzierte Fehlerketten mitdenken.
Konkrete Implikationen für Krankenhäuser, Health-IT-Anbieter und Versicherer
Für Krankenhäuser und Versorgungseinrichtungen
1. KI-spezifische Governance-Strukturen etablieren
Einrichtung eines Clinical AI Governance Boards mit Medizin, IT, Datenschutz, Compliance und Pflege.
Pflichtmäßige Risikoklassifizierung aller KI-Anwendungen mit explizitem UNDCS-Check:
- Offener Output-Raum?
- Nicht-deterministisches Sampling?
→ Falls ja: UNDCS-spezifische Kontrollen anwenden.
2. Agentische Workflows begrenzen und observierbar machen
Definierte Allowed Actions für KI-Agenten (z.B. Vorschlagsrechte statt Ausführungsrechte für Verordnungen).
Human-in-the-loop als Standard: Jede kritische klinische Entscheidung verbleibt formal beim Arzt.
Protokollierung aller Agentenaktionen in auditierbaren Logs (inkl. Prompts und Kontextquellen).
3. Kontinuierliche Validierung und Monitoring
Aufbau von Test-Sandboxes mit simulierten Patientenfällen für Red Teaming.
Einführung von Output-Monitoring (z.B. Stichproben-Reviews, automatische Detektion riskanter Muster wie Off-Label-Empfehlungen).
Klare Eskalationspfade für „KI-bezogene Beinahe-Fehler“ (Near Misses) im klinischen Risikomanagement.
Für Health-IT- und Plattformanbieter
1. UNDCS-Fähigkeit transparent machen
Technische Dokumentation, ob und wo nicht-deterministisches Verhalten eingesetzt wird.
Offenlegung der Safeguards (Guardrails, RAG, Agent-Agent-Moderation, Neuro-Symbolik), die zur Risikominderung dienen.
2. Konfigurierbare Sicherheits- und Governance-Bausteine liefern
Schnittstellen für:
- kundenseitige Prompt-Policies,
- klinikindividuelle Wissensbasen (RAG),
- eigene Audit- und Monitoring-Lösungen.
Unterstützung bei klinischen Studien und Real-World-Evidence-Konzepten für höher riskante UNDCS-Funktionen.
3. Vertragsgestaltung anpassen
Serviceverträge, die gemeinsame Verantwortung für KI-Risiken adressieren (z.B. geteilte Pflichten bei Updates, Retraining, Monitoring).
Klar definierte Haftungsgrenzen für Verstöße gegen vereinbarte Governance- und Security-Standards.
Für Versicherer und Kostenträger
1. UNDCS-Risiko in Underwriting und Tarifierung integrieren
Bewertung, ob Leistungserbringer systematisch UNDCS in Kernprozessen einsetzen.
Differenzierte Prämien- oder Vergütungsmodelle bei nachweislich robusten KI-Governance-Strukturen.
2. Auditrechte erweitern
Vertragsklauseln, die Einsicht in KI-bezogene Prozess- und Fehlerdaten erlauben.
Anforderungen an Mindeststandards (Red Teaming, Monitoring, Logging) als Voraussetzung für bestimmte Verträge.
3. Eigene KI-Strategie UNDCS-bewusst ausrichten
Auch interne KI-Agenten (z.B. zur Schadenfallbearbeitung) müssen den UNDCS-Kriterien unterworfen werden.
Aufbau von KI-Risiko-Teams mit interdisziplinärer Kompetenz (Aktuariat, Recht, Data Science, Medizinökonomie).
Handlungsempfehlungen für die nächsten 6–12 Monate
Inventur aller bestehenden und geplanten KI-Systeme mit Fokus auf:
- Output-Typ (geschlossen vs. offen),
- Determinismus vs. Sampling,
- Grad der Autonomie im Prozess.
Einführung einer UNDCS-Policy als Ergänzung zu bestehenden Medizinprodukte- und IT-Richtlinien.
Pilotprojekte nur in kontrollierten Umgebungen (begrenzte Fachbereiche, klare KPIs, enges Monitoring), bevor eine Skalierung auf den Gesamtbetrieb erfolgt.
Schulung von Führungskräften und Fachpersonal zu:
- Eigenheiten nicht-deterministischer KI,
- Grenzen regulatorischer Label-Modelle,
- Umgang mit KI-bedingten Beinahe-Fehlern.
Früher Dialog mit Aufsichtsbehörden und Berufsverbänden, um aufkommende Regulierungsansätze aktiv mitzugestalten, statt sie nur umzusetzen.
Fazit: UNDCS als Referenzrahmen für die nächste Regulierungsstufe
Das von npj Digital Medicine eingeführte UNDCS-Konzept liefert einen praktikablen Rahmen, um die spezifischen Risiken agentischer, nicht-deterministischer KI in der Medizin zu benennen und strukturiert zu adressieren.
Für Organisationen bedeutet das: Wer heute LLM-basierte Assistenten, Agenten-Frameworks oder generative Dokumentation in klinische oder para-klinische Prozesse einführt, sollte seine interne Governance nicht mehr allein an klassischen SaMD- oder Medizinprodukte-Kategorien ausrichten, sondern UNDCS explizit berücksichtigen.
Unternehmen, die frühzeitig eigene Policies, Auditstrukturen und Vertragsmodelle an diesem Governance-Bild ausrichten, können regulatorische Risiken reduzieren – und gleichzeitig Innovationen schneller und sicherer in den Versorgungsalltag bringen.
Häufig gestellte Fragen (FAQ)
Was versteht man unter Unconfined Non-Deterministic Clinical Software (UNDCS)?
Unconfined Non-Deterministic Clinical Software (UNDCS) bezeichnet klinische KI-Systeme mit offenem semantischem Output-Raum und nicht-deterministischem Verhalten. Dazu gehören vor allem LLM-basierte Agenten, die freie Texte generieren, mehrere Datenquellen kombinieren und Entscheidungen über verschiedene Workflows hinweg unterstützen, ohne sich auf einen festen Labelraum zu beschränken.
Worin unterscheidet sich UNDCS von klassischer SaMD und deterministischer klinischer Software?
Klassische SaMD und deterministische klinische Software arbeiten mit klar definierten Eingabe-Output-Paaren und sind weitgehend deterministisch testbar. UNDCS dagegen erzeugt offene, textbasierte und kontextabhängige Outputs, die durch Sampling-Verfahren variieren können, und entzieht sich damit rein labelbasierten Zulassungs- und Testlogiken. Dadurch verschieben sich Risiko, Validierungsaufwand und Verantwortlichkeiten im Vergleich zu traditionellen Systemen deutlich.
Warum greifen bestehende Medizinprodukte- und SaMD-Regeln bei klinischen KI-Agenten nur noch bedingt?
Bestehende Regeln stützen sich stark auf die deklarierte Zweckbestimmung und einen geschlossenen Output-Raum der Software. LLM-Agenten werden jedoch oft generisch deklariert, faktisch aber in klinischen Kontexten eingesetzt und erzeugen offene, variierende Outputs, die klassische Prüf- und Freigabeverfahren überfordern. Dadurch entstehen Regulierungs- und Haftungslücken, die mit UNDCS-spezifischer Governance adressiert werden müssen.
Welche Auswirkungen hat UNDCS auf Governance und Haftung in Krankenhäusern?
Bei UNDCS verlagert sich ein Teil der Haftungsrisiken von Herstellern hin zu Krankenhäusern, wenn diese KI-Agenten über die formale Zweckbestimmung hinaus klinisch nutzen. Einrichtungen müssen deshalb eigene Clinical-AI-Governance-Strukturen aufbauen, agentische Workflows begrenzen, Human-in-the-loop-Mechanismen verankern und kontinuierliches Monitoring sowie Logging etablieren. Ohne diese Maßnahmen steigt das Risiko für Fehlentscheidungen, Near Misses und haftungsrelevante Vorfälle.
Wie sollten Krankenhäuser und Health-IT-Anbieter konkret mit UNDCS-Systemen umgehen?
Krankenhäuser sollten eine Inventur aller KI-Anwendungen durchführen, UNDCS-Risiken gezielt klassifizieren und nur kontrollierte Pilotprojekte mit klaren KPIs und Monitoring starten. Health-IT-Anbieter sollten transparent dokumentieren, wo nicht-deterministisches Verhalten auftritt, konfigurierbare Safeguards und Governance-Bausteine bereitstellen und Verträge so gestalten, dass gemeinsame Verantwortung für KI-Risiken geregelt ist. Beide Seiten profitieren von auditierbaren Logs, Red-Teaming und regelmäßigen Quality-Reviews der KI-Outputs.
Welche Rolle spielen Versicherer im Kontext von UNDCS-basierten KI-Systemen?
Versicherer müssen UNDCS-Risiken in Underwriting, Tarifierung und Vergütungsmodelle integrieren, insbesondere wenn Leistungserbringer agentische KI in Kernprozessen nutzen. Dazu gehören erweiterte Auditrechte, Mindestanforderungen an Red Teaming, Monitoring und Logging sowie der Aufbau eigener KI-Risikoteams. So lassen sich KI-induzierte Fehlerketten besser verstehen, bepreisen und durch Governance-Anreize reduzieren.
Was sollten Organisationen in den nächsten 6–12 Monaten im Hinblick auf UNDCS priorisieren?
Organisationen sollten kurzfristig eine UNDCS-Policy ergänzend zu bestehenden IT- und Medizinprodukterichtlinien einführen, alle KI-Systeme nach Output-Typ, Determinismus und Autonomiegrad klassifizieren und kritische Anwendungen nur in streng überwachten Piloten einsetzen. Parallel dazu sind Schulungen für Führungskräfte und Fachpersonal, der Aufbau von Test-Sandboxes sowie der frühe Dialog mit Aufsichtsbehörden zentral, um künftige Regulierungsansätze aktiv mitzugestalten.