regulatory-intelligenceaipharmamedtechcompliance

Perché le risposte regolatorie generate da IA hanno bisogno di citazioni (e perché l'IA interna della FDA non le ha)

RegAid Team9 min di lettura
Perché le risposte regolatorie generate da IA hanno bisogno di citazioni (e perché l'IA interna della FDA non le ha)

Il regulatory affairs non può poggiare su risposte IA che non si possono verificare. Questo principio è passato da buona pratica a notizia pubblica quando lo strumento IA interno della FDA, Elsa, è stato segnalato per fabbricare studi inesistenti e rappresentare in modo errato, con sicurezza, la ricerca. Tre dipendenti attivi della FDA hanno parlato a nome proprio con la CNN. La FDA ora indica al personale di ricontrollare tutto ciò che Elsa dice prima di usarlo. Per i team RA che valutano strumenti IA, la lezione è diretta: un'IA che non ancora ogni affermazione a una fonte primaria verificabile è una passività, non una risorsa. Questo articolo copre cosa è andato storto con Elsa, cosa significa davvero "IA citata", cosa già richiede il framework FDA di gennaio 2025 e cosa pretendere da qualsiasi tool.

Cosa è andato storto con Elsa

Elsa è un copilota IA generativa lanciato dalla FDA nel giugno 2025 (annuncio FDA). È stato creato per aiutare i revisori dell'agenzia a redigere documenti, cercare negli archivi interni e riassumere le submission. L'ambizione di prodotto è ragionevole. L'esecuzione ha esposto un problema architetturale fondamentale.

Dipendenti della FDA hanno detto a CNN che Elsa "inventa studi inesistenti" e rappresenta in modo errato la ricerca. Revisori che hanno interrogato Elsa per dati di sicurezza su un farmaco hanno ricevuto riferimenti a studi non rintracciabili in alcun database. Un funzionario FDA ha dichiarato pubblicamente: "Qualsiasi cosa che non hai tempo di ricontrollare è inaffidabile. Ha allucinazioni con sicurezza."

La causa alla radice non è specifica di Elsa. È una proprietà condivisa da ogni grande modello di linguaggio generalista: senza un livello di retrieval che ancori la generazione in documenti sorgente verificati, il modello produce testo statisticamente plausibile ma non fattualmente affidabile. Chiedi un riferimento, genera qualcosa che assomiglia a un riferimento. Chiedi una conclusione di studio, genera qualcosa che assomiglia a una conclusione. Che questi output corrispondano a documenti reali è, dal punto di vista del modello, irrilevante.

A Elsa manca ciò che conta nell'uso regolatorio: una catena trasparente da ogni affermazione generata a una fonte primaria che un revisore possa aprire e verificare.

Il problema centrale: LLM non ancorato vs RAG

Gli strumenti IA generativa nel lavoro regolatorio cadono in due classi architetturali.

LLM non ancorato: il modello genera risposte dalla memoria parametrica (ciò che ha appreso durante il training). Può citare fluentemente ma non può dimostrare che alcuna citazione corrisponda a una fonte reale. È così che Elsa opera in pratica.

Retrieval-Augmented Generation (RAG): il modello è obbligato a recuperare passaggi da un corpus affidabile (documenti primari delle agenzie, leggi, guidance) prima di generare. Ogni affermazione è collegata al passaggio recuperato da cui proviene. L'utente può aprire il documento originale.

Uno studio pubblicato nel 2026 che valuta il RAG per la conformità regolatoria delle informazioni sui farmaci ha misurato una rilevanza delle risposte al 100 per cento e una fedeltà al 95 per cento, ossia quasi ogni affermazione generata era riconducibile ai documenti sorgente recuperati. La stessa attività, svolta da un LLM non ancorato, produce tassi di fabbricazione abbastanza alti da far fallire i controlli qualità interni della FDA stessa.

La differenza architetturale conta più della scala del modello o del marchio. Un modello più piccolo con RAG supererà un modello più grande senza RAG, perché il collo di bottiglia del lavoro regolatorio non è la creatività, è la verificabilità.

Cosa significa "citato" in uno strumento IA

"Citato" è usato liberamente nel marketing IA. Per il lavoro regolatorio, una citazione è significativa solo se soddisfa quattro criteri.

1. Collega al passaggio esatto, non al documento. "Vedi la guidance FDA" non è una citazione. "21 CFR 314.80(c)(1)(i) su eCFR" con URL diretto al paragrafo citato è una citazione.

2. Collega a una fonte primaria, non a un riassunto secondario. Una citazione a un blog commento non equivale a una citazione alla notice del Federal Register che il blog descrive.

3. L'IA l'ha recuperata prima di generare la risposta. Se l'IA genera e poi aggiunge a posteriori una citazione plausibile, la citazione potrebbe non corrispondere a ciò che la risposta afferma. Il RAG recupera prima, genera dopo.

4. L'utente può aprirla e verificarla in un clic. Se la citazione richiede una ricerca, il passaggio di verifica si perde a livello umano. Un deep link cliccabile è non negoziabile per i flussi RA.

Gli strumenti che falliscono uno di questi quattro test sono più vicini a Elsa che a un assistente RA affidabile.

Il framework della FDA stessa già lo richiede

L'ironia di Elsa è che la FDA stessa ha pubblicato il framework che avrebbe intercettato il problema. Il 6 gennaio 2025, la FDA ha pubblicato la bozza di guidance Considerations for the Use of Artificial Intelligence to Support Regulatory Decision-Making for Drug and Biological Products. La guidance stabilisce un framework di credibilità basato sul rischio in 7 passi e introduce due concetti direttamente rilevanti per questo articolo.

Context of use (COU): una dichiarazione scritta di esattamente per cosa serve il modello IA, quali input accetta e quali decisioni supporta il suo output. Senza COU definito, la credibilità non può essere valutata affatto.

Credibility assessment: una valutazione strutturata se la performance del modello è adeguata al COU dichiarato, inclusa data governance, design del modello e trasparenza verso gli utenti.

Applicato a Elsa: il suo contesto d'uso è scivolato da "assistente di ricerca documentale" a "fonte di ricerca primaria", e la valutazione di credibilità per quest'ultimo non è mai stata fatta. I principi guida congiunti EMA-FDA pubblicati a gennaio 2026 hanno sancito questi stessi requisiti a livello internazionale con un principio su "data governance e documentazione" e un altro su "contesto d'uso chiaro". I principi descrivono, in linguaggio regolatorio, le proprietà esatte che un sistema RAG citato-per-primo fornisce di default.

Cosa pretendere da qualsiasi strumento IA RA: checklist in 7 punti

Nel valutare uno strumento IA per il lavoro regolatorio, una checklist di due diligence separa i prodotti che si comportano come Elsa da quelli che soddisfano le aspettative regolatorie.

  1. Chiedete una risposta citata a una domanda regolatoria specifica, poi aprite ogni citazione. Se una citazione non corrisponde all'affermazione, interrompete la valutazione.
  2. Chiedete qual è il corpus sorgente. Uno strumento che non sa nominare le sue fonti primarie (guidance FDA, scientific guidelines EMA, documenti MDCG, eCFR, EUR-Lex, linee guida ICH, standard ISO) genera da memoria parametrica, non da retrieval.
  3. Verificate che il retrieval sia reale e non a posteriori. Chiedete se il modello recupera passaggi prima di generare o aggiunge le citazioni dopo. Solo il primo è RAG.
  4. Controllate la granularità delle citazioni. Le citazioni sono a livello documento ("vedi guidance FDA X") o a livello clausola ("21 CFR 314.80(c)(1)(i)")? Il livello clausola è richiesto.
  5. Mettete alla prova la fabbricazione. Fate una domanda che sapete non avere una buona risposta sorgente. Uno strumento ben ancorato lo dirà. Uno strumento fragile ne inventerà una.
  6. Chiedete l'aggiornamento del corpus. Uno strumento il cui indice è stato congelato un anno fa non è adatto al lavoro regolatorio, che cambia settimanalmente.
  7. Confrontate la documentazione del tool con il framework FDA di credibilità in 7 passi. Se il fornitore non sa mappare il suo prodotto su COU e credibility assessment, il prodotto non è pronto per uso RA.

Prova in RegAid: Cosa dice la guidance FDA sulla credibilità dell'IA per le submission di farmaci?

Equivoci ricorrenti

"Tutti i grandi strumenti IA citano ora": molti aggiungono citazioni come vernice UI pur continuando a generare prevalentemente da memoria parametrica. La citazione può non corrispondere all'affermazione. È lo schema Elsa vestito diversamente. Provate ogni strumento prima di fidarvi.

"Se l'LLM è fine-tuned sulle normative, è sicuro": il fine-tuning regola i pesi del modello ma non garantisce il retrieval. Un modello fine-tuned può ancora inventare citazioni. La proprietà di sicurezza viene dall'architettura (retrieval + link verificabili), non dai soli dati di training.

"FDA Elsa è un prodotto governativo, sicuramente è affidabile": Elsa è uno strumento interno dell'agenzia soggetto agli stessi limiti di qualsiasi LLM non ancorato. I dipendenti della FDA stessa hanno sollevato dubbi pubblicamente. L'origine non conferisce affidabilità.

"Le citazioni rallentano l'IA": il retrieval aggiunge un passaggio, ma un sistema RAG ben progettato risponde in secondi, non minuti. Il costo di latenza è trascurabile rispetto al costo di verifica di una risposta non ancorata.

"Va bene per le prime bozze, gli umani controllano il finale": è l'argomento più pericoloso. Un'IA che produce prime bozze plausibili-ma-false àncora i revisori verso conclusioni errate. La ricerca di psicologia cognitiva sugli effetti di ancoraggio mostra che anche i revisori consapevoli dei limiti dell'IA vengono influenzati dalla prima bozza. Se l'IA non è affidabile per una prima bozza, non può essere usata per una prima bozza.

Punti chiave

  • Lo strumento IA interno Elsa della FDA è pubblicamente riportato per fabbricare studi, illustrando il rischio degli LLM non ancorati nel lavoro regolatorio (CNN, luglio 2025)
  • La distinzione architetturale è LLM non ancorato vs Retrieval-Augmented Generation (RAG); il RAG àncora ogni affermazione a una fonte recuperata
  • Una citazione è significativa solo se collega al passaggio esatto in una fonte primaria e l'IA l'ha recuperata prima di generare
  • La bozza di guidance FDA di gennaio 2025 stabilisce un framework di credibilità in 7 passi attorno a "context of use" e "credibility assessment"
  • I principi congiunti EMA-FDA (gennaio 2026) sanciscono gli stessi requisiti a livello internazionale
  • Valutate ogni strumento IA RA rispetto alla checklist in 7 punti; gli strumenti che non la superano non sono adatti al lavoro regolatorio

Come aiuta RegAid

RegAid è costruito come piattaforma di regulatory intelligence retrieval-first. Ogni risposta è ancorata a passaggi recuperati dal corpus di fonti primarie: guidance FDA, scientific guidelines EMA, documenti MDCG, guidance Swissmedic, eCFR, EUR-Lex, linee guida ICH, standard ISO e notice al Federal Register. Ogni citazione punta in deep-link alla clausola esatta. Chieda "Cosa dice la guidance FDA di gennaio 2025 sul context of use?" o "Qual è l'apporto accettabile per N-nitroso-rivaroxaban?" e clicchi sulla citazione per aprire il documento primario in un passo. Nessuno studio inventato. Nessuna citazione a posteriori. Nessuna supposizione da memoria parametrica.