Regulatory Affairs kann nicht auf KI-Antworten beruhen, die Sie nicht verifizieren können. Dieses Prinzip wurde von Best Practice zu öffentlichen Nachrichten, als das FDA-eigene interne KI-Werkzeug Elsa berichtetermassen Studien erfand, die nicht existieren, und Forschung selbstbewusst falsch wiedergab. Drei aktive FDA-Mitarbeitende sprachen mit CNN unter eigenem Namen. FDA-Stellen weisen Mitarbeitende nun an, alles, was Elsa sagt, vor der Verwendung doppelt zu prüfen. Für RA-Teams, die KI-Werkzeuge bewerten, ist die Lehre eindeutig: Eine KI, die nicht jede Behauptung in einer verifizierbaren Primärquelle verankert, ist eine Belastung, kein Vorteil. Dieser Beitrag behandelt, was mit Elsa schiefging, was "belegte KI" wirklich bedeutet, was der FDA-eigene Rahmen vom Januar 2025 bereits verlangt, und was Sie von jedem Werkzeug einfordern sollten.
Was mit Elsa schiefging
Elsa ist ein generatives KI-Copilot-Werkzeug, das die FDA im Juni 2025 eingeführt hat (FDA-Ankündigung). Es soll Behördengutachtern beim Entwurf von Dokumenten, bei der Suche in internen Unterlagen und beim Zusammenfassen von Einreichungen helfen. Das Produktziel ist vernünftig. Die Umsetzung legte ein grundlegendes architektonisches Problem offen.
FDA-Mitarbeitende berichteten CNN, dass Elsa "nicht existierende Studien erfindet" und Forschung falsch wiedergibt. Gutachter, die Elsa nach Sicherheitsdaten zu Arzneimitteln befragten, erhielten Verweise auf Studien, die in keiner Datenbank zu finden waren. Ein FDA-Beamter sagte öffentlich: "Alles, was Sie nicht die Zeit haben, doppelt zu prüfen, ist unzuverlässig. Es halluziniert selbstbewusst."
Die Ursache ist nicht Elsa-spezifisch. Es ist eine Eigenschaft, die jedes grosse allgemeine Sprachmodell teilt: Ohne eine Retrieval-Schicht, die die Generierung in verifizierten Quelldokumenten verankert, erzeugt das Modell Text, der statistisch plausibel, aber nicht sachlich zuverlässig ist. Wird es nach einer Referenz gefragt, erzeugt es etwas, das wie eine Referenz aussieht. Wird es nach einer Studienschlussfolgerung gefragt, erzeugt es etwas, das wie eine Schlussfolgerung aussieht. Ob diese Ausgaben realen Dokumenten entsprechen, ist aus Sicht des Modells nebensächlich.
Elsa fehlt, was im regulatorischen Einsatz zählt: eine transparente Kette von jeder erzeugten Aussage zu einer Primärquelle, die ein Gutachter öffnen und verifizieren kann.
Das Kernproblem: ungegroundetes LLM vs. RAG
Generative KI-Werkzeuge im regulatorischen Bereich fallen in zwei Architekturklassen.
Ungegroundetes LLM: Das Modell erzeugt Antworten aus dem parametrischen Gedächtnis (was es im Training gelernt hat). Es kann flüssig zitieren, aber nicht beweisen, dass irgendein Zitat einer realen Quelle entspricht. So funktioniert Elsa in der Praxis.
Retrieval-Augmented Generation (RAG): Das Modell muss vor dem Generieren Passagen aus einem vertrauenswürdigen Korpus (primäre Behördendokumente, Gesetze, Guidances) abrufen. Jede Aussage ist mit der abgerufenen Passage verknüpft, aus der sie stammt. Der Nutzer kann zum Originaldokument durchklicken.
Eine 2026 veröffentlichte Studie zur Bewertung von RAG für die regulatorische Konformität von Arzneimittelinformationen ergab eine Antwortrelevanz von 100 Prozent und eine Treue von 95 Prozent, d. h. nahezu jede erzeugte Aussage war zu den abgerufenen Quelldokumenten rückverfolgbar. Dieselbe Aufgabe, von einem ungegroundeten LLM ausgeführt, produziert Fabrikationsraten, die hoch genug sind, dass die FDA-eigene Implementierung die internen Qualitätshürden nicht überwinden konnte.
Der architektonische Unterschied ist wichtiger als Modellgrösse oder Marke. Ein kleineres Modell mit RAG wird ein grösseres Modell ohne RAG übertreffen, weil der Engpass regulatorischer Arbeit nicht Kreativität, sondern Verifizierbarkeit ist.
Was "belegt" in einem KI-Werkzeug wirklich bedeutet
"Belegt" wird im KI-Marketing locker verwendet. Für regulatorische Arbeit ist ein Beleg nur dann aussagekräftig, wenn er vier Kriterien erfüllt.
1. Verlinkt auf die genaue Passage, nicht das Dokument. "Siehe FDA-Guidance" ist kein Beleg. "21 CFR 314.80(c)(1)(i) auf eCFR" mit direktem Link auf den zitierten Abschnitt ist ein Beleg.
2. Verlinkt auf eine Primärquelle, nicht auf eine Sekundärzusammenfassung. Ein Beleg auf einen Kommentar-Blog ist nicht gleichwertig mit einem Beleg auf die Federal-Register-Notice, die der Blog beschreibt.
3. Die KI hat ihn vor der Antwortgenerierung abgerufen. Wenn die KI zuerst generiert und nachträglich einen plausibel aussehenden Beleg hinzufügt, entspricht der Beleg möglicherweise nicht dem, was die Antwort behauptet. RAG ruft zuerst ab, generiert danach.
4. Der Nutzer kann ihn mit einem Klick öffnen und verifizieren. Wenn der Beleg eine Suche erfordert, geht der Verifizierungsschritt auf menschlicher Ebene verloren. Ein klickbarer Deep-Link ist für RA-Workflows unverzichtbar.
Werkzeuge, die einen dieser vier Tests nicht bestehen, sind näher an Elsa als an einem vertrauenswürdigen RA-Assistenten.
Der FDA-eigene Rahmen verlangt das bereits
Die Ironie von Elsa ist, dass die FDA selbst den Rahmen veröffentlicht hat, der das Problem hätte auffangen können. Am 6. Januar 2025 veröffentlichte die FDA einen Guidance-Entwurf, Considerations for the Use of Artificial Intelligence to Support Regulatory Decision-Making for Drug and Biological Products. Die Guidance etabliert einen 7-stufigen risikobasierten Glaubwürdigkeitsrahmen und führt zwei für diesen Beitrag direkt relevante Konzepte ein.
Context of Use (COU): Eine schriftliche Erklärung dazu, wofür das KI-Modell eingesetzt wird, welche Eingaben es akzeptiert und welche Entscheidungen seine Ausgabe stützt. Ohne definierten COU kann Glaubwürdigkeit überhaupt nicht bewertet werden.
Credibility Assessment: Eine strukturierte Bewertung, ob die Modellleistung für den beanspruchten COU angemessen ist, einschliesslich Data Governance, Modelldesign und Transparenz gegenüber Nutzern.
Auf Elsa übertragen: Der Einsatzkontext verschob sich von "Dokumenten-Suchassistent" zu "primärer Forschungsquelle", und die Glaubwürdigkeitsbewertung für Letzteres wurde nie vorgenommen. Die gemeinsamen Leitprinzipien von EMA und FDA vom Januar 2026 verankerten dies international mit einem Prinzip zu "Data Governance und Dokumentation" und einem zu "klarem Einsatzkontext". Die Prinzipien beschreiben in regulatorischer Sprache genau die Eigenschaften, die ein belegt-zuerst-RAG-System von Natur aus mitbringt.
Was Sie von jedem KI-RA-Werkzeug verlangen sollten: eine 7-Punkte-Checkliste
Bei der Bewertung eines KI-Werkzeugs für regulatorische Arbeit trennt eine kurze Due-Diligence-Checkliste Produkte, die sich wie Elsa verhalten, von solchen, die die regulatorischen Erwartungen erfüllen.
- Fragen Sie nach einer belegten Antwort auf eine konkrete regulatorische Frage und öffnen Sie jeden Beleg. Entspricht ein Beleg nicht der gemachten Aussage, hören Sie mit der Bewertung auf.
- Fragen Sie nach dem Quellkorpus. Ein Werkzeug, das seine Primärquellen (FDA-Guidances, EMA Scientific Guidelines, MDCG-Dokumente, eCFR, EUR-Lex, ICH-Leitlinien, ISO-Normen) nicht benennen kann, generiert aus parametrischem Gedächtnis, nicht aus Retrieval.
- Verifizieren Sie, dass das Retrieval echt und nicht nachträglich ist. Fragen Sie, ob das Modell Passagen vor dem Generieren abruft oder Belege danach anhängt. Nur Ersteres ist RAG.
- Prüfen Sie die Zitationsgranularität. Sind Belege auf Dokumentenebene ("siehe FDA-Guidance X") oder auf Klauselebene ("21 CFR 314.80(c)(1)(i)")? Klauselebene ist erforderlich.
- Testen Sie auf Fabrikation. Stellen Sie eine Frage, von der Sie wissen, dass es keine gute Quellantwort gibt. Ein gut verankertes Werkzeug sagt das. Ein brüchiges Werkzeug erfindet eine.
- Fragen Sie nach Aktualisierungen des Korpus. Ein Werkzeug, dessen Index vor einem Jahr erstellt wurde, eignet sich nicht für regulatorische Arbeit, die sich wöchentlich ändert.
- Prüfen Sie die Tool-Dokumentation gegen das 7-stufige FDA-Glaubwürdigkeits-Framework. Kann der Anbieter sein Produkt nicht auf COU und Credibility Assessment abbilden, ist das Produkt nicht RA-bereit.
In RegAid ausprobieren: Was sagt die FDA-Guidance zur KI-Glaubwürdigkeit für Arzneimittel-Einreichungen?
Häufige Missverständnisse
"Alle grossen KI-Werkzeuge belegen jetzt": Viele fügen Belege als UI-Verzierung hinzu, generieren aber weiterhin primär aus parametrischem Gedächtnis. Der Beleg entspricht möglicherweise nicht der Aussage. Das ist das Elsa-Muster, neu verpackt. Testen Sie jedes Werkzeug, bevor Sie ihm vertrauen.
"Wenn das LLM auf Regulierungen feingetuned ist, ist es sicher": Fine-Tuning passt Modellgewichte an, garantiert aber kein Retrieval. Ein feingetuntes Modell kann weiterhin Belege erfinden. Die Sicherheitseigenschaft kommt aus der Architektur (Retrieval + verifizierbare Links), nicht allein aus Trainingsdaten.
"FDA Elsa ist ein staatliches Produkt, sicher zuverlässig": Elsa ist ein internes Behördenwerkzeug, das denselben Beschränkungen unterliegt wie jedes ungegroundete LLM. Die FDA-eigenen Mitarbeitenden haben öffentlich Bedenken erhoben. Herkunft verleiht keine Zuverlässigkeit.
"Belege verlangsamen die KI": Retrieval fügt einen Schritt hinzu, aber ein gut konstruiertes RAG-System liefert in Sekunden, nicht Minuten. Die Latenzkosten sind trivial gegenüber den Verifizierungskosten einer ungegroundeten Antwort.
"Es reicht für erste Entwürfe, Menschen prüfen das Endergebnis": Das ist das gefährlichste Argument. Eine KI, die plausible-aber-falsche erste Entwürfe erzeugt, verankert Prüfer in falschen Schlüssen. Kognitionspsychologische Forschung zu Anker-Effekten zeigt: Selbst Prüfer, die sich der KI-Grenzen bewusst sind, werden vom ersten Entwurf beeinflusst. Wenn die KI für einen ersten Entwurf nicht vertrauenswürdig ist, kann sie nicht für einen ersten Entwurf verwendet werden.
Wichtigste Punkte
- Das FDA-eigene KI-Werkzeug Elsa erfindet öffentlich berichtetermassen Studien und illustriert das Risiko ungegroundeter LLMs in regulatorischer Arbeit (CNN, Juli 2025)
- Der architektonische Unterschied ist ungegroundetes LLM vs. Retrieval-Augmented Generation (RAG); RAG verankert jede Aussage in einer abgerufenen Quelle
- Ein Beleg ist nur aussagekräftig, wenn er auf die genaue Passage in einer Primärquelle verlinkt und die KI ihn vor dem Generieren abgerufen hat
- Die FDA-Guidance-Entwurf vom Januar 2025 etabliert einen 7-stufigen Glaubwürdigkeitsrahmen um "Context of Use" und "Credibility Assessment"
- Die gemeinsamen Prinzipien von EMA und FDA (Januar 2026) verankern dieselben Anforderungen international
- Bewerten Sie jedes KI-RA-Werkzeug gegen die 7-Punkte-Checkliste; Werkzeuge, die nicht bestehen, sind für regulatorische Arbeit ungeeignet
Wie RegAid hilft
RegAid ist als Retrieval-first Regulatory-Intelligence-Plattform gebaut. Jede Antwort ist in abgerufenen Passagen aus dem Primärquellkorpus verankert: FDA-Guidances, EMA Scientific Guidelines, MDCG-Dokumente, Swissmedic-Guidance, eCFR, EUR-Lex, ICH-Leitlinien, ISO-Normen und Federal-Register-Notices der Behörden. Jeder Beleg verlinkt tief auf die genaue Klausel. Fragen Sie "Was sagt die FDA-Guidance vom Januar 2025 zu Context of Use?" oder "Wie lautet der akzeptable Aufnahmewert für N-Nitroso-Rivaroxaban?" und öffnen Sie den Beleg mit einem Klick im Primärdokument. Keine erfundenen Studien. Keine nachträglichen Belege. Kein parametrisches Gedächtnis-Raten.
