regulatory-intelligenceaipharmamedtechcompliance

Pourquoi les réponses réglementaires générées par IA ont besoin de citations (et pourquoi l'IA interne de la FDA n'en a pas)

RegAid Team29 avril 20269 min de lecture

Les affaires réglementaires ne peuvent pas fonctionner sur des réponses IA invérifiables. Ce principe est passé de bonne pratique à actualité publique lorsque l'outil d'IA interne de la FDA, Elsa, a été signalé pour fabriquer des études inexistantes et déformer la recherche avec aplomb. Trois employés actifs de la FDA se sont exprimés à visage découvert auprès de CNN. La FDA demande désormais à son personnel de vérifier deux fois tout ce que dit Elsa avant usage. Pour les équipes RA qui évaluent des outils d'IA, la leçon est directe : une IA qui ne peut ancrer chaque affirmation dans une source primaire vérifiable est un passif, pas un atout. Ce billet couvre ce qui a échoué avec Elsa, ce que signifie vraiment une IA sourcée, ce que le cadre FDA de janvier 2025 exige déjà, et ce qu'il faut exiger de tout outil envisagé.

Ce qui a échoué avec Elsa

Elsa est un copilote d'IA générative lancé par la FDA en juin 2025 (annonce FDA). Il a été conçu pour aider les examinateurs de l'agence à rédiger des documents, rechercher dans les dossiers internes et résumer les soumissions. L'ambition produit est raisonnable. L'exécution a exposé un problème architectural fondamental.

Des employés de la FDA ont déclaré à CNN qu'Elsa "invente des études inexistantes" et déforme la recherche. Des examinateurs qui ont interrogé Elsa pour obtenir des données de sécurité sur un médicament ont reçu des références à des études introuvables dans toute base de données. Un responsable de la FDA a déclaré publiquement : "Tout ce que vous n'avez pas le temps de revérifier est non fiable. Elle hallucine avec aplomb."

La cause racine n'est pas spécifique à Elsa. C'est une propriété partagée par tout grand modèle de langage généraliste : sans couche de retrieval ancrant la génération dans des documents sources vérifiés, le modèle produit un texte statistiquement plausible mais pas factuellement fiable. Demandez-lui une référence, il en génère une qui ressemble à une référence. Demandez-lui la conclusion d'une étude, il en génère une qui ressemble à une conclusion. Que ces sorties correspondent à des documents réels est, du point de vue du modèle, accessoire.

Ce qui manque à Elsa pour un usage réglementaire : une chaîne transparente entre chaque affirmation générée et une source primaire qu'un examinateur peut ouvrir et vérifier.

Le cœur du problème : LLM non ancré vs RAG

Les outils d'IA générative dans le travail réglementaire se rangent dans deux classes architecturales.

LLM non ancré : le modèle génère des réponses depuis la mémoire paramétrique (ce qu'il a appris pendant l'entraînement). Il peut citer de façon fluide mais ne peut prouver qu'aucune citation correspond à une source réelle. C'est ainsi qu'Elsa fonctionne en pratique.

Retrieval-Augmented Generation (RAG) : le modèle est contraint de récupérer des passages dans un corpus fiable (documents d'agence primaires, textes légaux, guidances) avant de générer. Chaque affirmation est liée au passage récupéré dont elle provient. L'utilisateur peut ouvrir le document original.

Une étude 2026 publiée évaluant le RAG pour la conformité réglementaire des informations sur les médicaments a mesuré une pertinence des réponses à 100 % et une fidélité à 95 %, soit la quasi-totalité des affirmations traçables aux documents sources récupérés. La même tâche, exécutée par un LLM non ancré, produit des taux de fabrication assez élevés pour que l'implémentation interne de la FDA n'ait pas passé ses contrôles qualité.

La différence architecturale compte plus que la taille ou la marque du modèle. Un modèle plus petit avec RAG surpassera un modèle plus grand sans, car le goulot de la tâche réglementaire n'est pas la créativité, c'est la vérifiabilité.

Ce que "sourcé" signifie vraiment dans un outil d'IA

"Sourcé" est utilisé librement dans le marketing IA. Pour le travail réglementaire, une citation n'est utile que si elle satisfait quatre critères.

1. Lien vers le passage exact, pas le document. "Voir la guidance FDA" n'est pas une citation. "21 CFR 314.80(c)(1)(i) sur eCFR" avec URL directe vers l'alinéa cité est une citation.

2. Lien vers une source primaire, pas un résumé secondaire. Une citation vers un billet de blog commentaire n'équivaut pas à une citation vers la notice au Federal Register que le billet décrit.

3. L'IA l'a récupéré avant de générer la réponse. Si l'IA génère puis ajoute après coup une citation plausible, la citation peut ne pas correspondre à ce qu'affirme la réponse. Le RAG récupère d'abord, génère ensuite.

4. L'utilisateur peut l'ouvrir et vérifier en un clic. Si la citation requiert une recherche, l'étape de vérification se perd au niveau humain. Un deep-link cliquable est non négociable pour les workflows RA.

Les outils qui échouent à l'un de ces quatre tests sont plus proches d'Elsa que d'un assistant RA fiable.

Le cadre propre de la FDA l'exige déjà

L'ironie d'Elsa est que la FDA elle-même a publié le cadre qui aurait attrapé le problème. Le 6 janvier 2025, la FDA a publié le projet de guidance Considerations for the Use of Artificial Intelligence to Support Regulatory Decision-Making for Drug and Biological Products. La guidance établit un cadre de crédibilité basé sur le risque en 7 étapes et introduit deux concepts directement pertinents pour ce billet.

Context of use (COU) : un énoncé écrit précisant exactement ce pour quoi le modèle d'IA est utilisé, quelles entrées il accepte, et quelles décisions sa sortie soutient. Sans COU défini, la crédibilité ne peut pas être évaluée du tout.

Credibility assessment : une évaluation structurée de l'adéquation de la performance du modèle au COU revendiqué, incluant gouvernance des données, conception du modèle et transparence envers les utilisateurs.

Appliqué à Elsa : son contexte d'utilisation a dérivé de "assistant de recherche documentaire" à "source de recherche primaire", et l'évaluation de crédibilité pour ce dernier n'a jamais été faite. Les principes directeurs conjoints EMA-FDA publiés en janvier 2026 ont consolidé ces exigences internationalement avec un principe sur la "gouvernance des données et documentation" et un autre sur le "contexte d'utilisation clair". Ces principes décrivent, en langage réglementaire, les propriétés exactes qu'un système RAG sourcé-d'abord fournit nativement.

Ce qu'il faut exiger de tout outil IA RA : checklist en 7 points

Pour évaluer un outil d'IA pour le travail réglementaire, une checklist courte sépare les produits qui se comportent comme Elsa de ceux qui respectent les attentes réglementaires.

Demandez une réponse sourcée à une question réglementaire précise, puis ouvrez chaque citation. Si une citation ne correspond pas à l'affirmation, arrêtez l'évaluation.
Demandez quel est le corpus source. Un outil qui ne peut pas nommer ses sources primaires (guidances FDA, scientific guidelines EMA, documents MDCG, eCFR, EUR-Lex, lignes directrices ICH, normes ISO) génère depuis la mémoire paramétrique, pas le retrieval.
Vérifiez que le retrieval est réel, pas a posteriori. Demandez si le modèle récupère des passages avant de générer ou ajoute les citations après. Seul le premier est du RAG.
Vérifiez la granularité des citations. Sont-elles au niveau du document ("voir guidance FDA X") ou de la clause ("21 CFR 314.80(c)(1)(i)") ? Le niveau clause est requis.
Testez la fabrication. Posez une question dont vous savez qu'elle n'a pas de bonne réponse source. Un outil bien ancré le dira. Un outil fragile inventera.
Interrogez la mise à jour du corpus. Un outil dont l'index a été figé il y a un an ne convient pas au travail réglementaire, qui change chaque semaine.
Confrontez la documentation de l'outil au cadre FDA de crédibilité en 7 étapes. Si le fournisseur ne peut pas mapper son produit sur le COU et le credibility assessment, le produit n'est pas prêt pour un usage RA.

Essayez ceci dans RegAid : Que dit la guidance FDA sur la crédibilité de l'IA pour les soumissions de médicaments ?

Idées fausses fréquentes

"Tous les grands outils IA citent maintenant" : beaucoup ajoutent des citations comme vernis d'UI tout en continuant à générer depuis la mémoire paramétrique. La citation peut ne pas correspondre à l'affirmation. C'est le schéma Elsa déguisé. Testez chaque outil avant de lui faire confiance.

"Si le LLM est fine-tuné sur les réglementations, il est sûr" : le fine-tuning ajuste les poids du modèle mais ne garantit pas le retrieval. Un modèle fine-tuné peut encore inventer des citations. La propriété de sûreté vient de l'architecture (retrieval + liens vérifiables), pas des seules données d'entraînement.

"FDA Elsa est un produit gouvernemental, il est sûrement fiable" : Elsa est un outil interne de l'agence soumis aux mêmes limitations que tout LLM non ancré. Les propres employés de la FDA ont publiquement exprimé des réserves. L'origine ne confère pas la fiabilité.

"Les citations ralentissent l'IA" : le retrieval ajoute une étape, mais un système RAG bien conçu répond en secondes, pas en minutes. Le coût de latence est trivial face au coût de vérification d'une réponse non ancrée.

"C'est bon pour des premiers jets, l'humain vérifie la version finale" : c'est l'argument le plus dangereux. Une IA qui produit des premiers jets plausibles-mais-faux ancre les examinateurs vers de mauvaises conclusions. La recherche en psychologie cognitive sur les effets d'ancrage montre que même les examinateurs conscients des limites de l'IA sont influencés par le premier jet. Si l'IA ne peut être fiable pour un premier jet, elle ne peut servir pour un premier jet.

Points clés

L'outil d'IA interne Elsa de la FDA est publiquement signalé pour fabriquer des études, illustrant le risque des LLM non ancrés en travail réglementaire (CNN, juillet 2025)
La distinction architecturale est LLM non ancré vs Retrieval-Augmented Generation (RAG) ; le RAG ancre chaque affirmation dans une source récupérée
Une citation n'est utile que si elle lie au passage exact d'une source primaire et que l'IA l'a récupérée avant de générer
Le projet de guidance FDA de janvier 2025 établit un cadre de crédibilité en 7 étapes autour du "context of use" et du "credibility assessment"
Les principes conjoints EMA-FDA (janvier 2026) consolident les mêmes exigences à l'international
Évaluez tout outil IA RA contre la checklist en 7 points ; les outils qui ne passent pas ne conviennent pas au travail réglementaire

Comment RegAid aide

RegAid est construit comme une plateforme de regulatory intelligence retrieval-first. Chaque réponse est ancrée dans des passages récupérés du corpus de sources primaires : guidances FDA, scientific guidelines EMA, documents MDCG, guidance Swissmedic, eCFR, EUR-Lex, lignes directrices ICH, normes ISO et notices au Federal Register. Chaque citation pointe en deep-link vers la clause exacte. Demandez "Que dit la guidance FDA de janvier 2025 sur le context of use ?" ou "Quel est l'apport acceptable pour N-nitroso-rivaroxaban ?" et cliquez sur la citation pour ouvrir le document primaire en une étape. Aucune étude inventée. Aucune citation a posteriori. Aucune devinette de mémoire paramétrique.