regulatory-intelligenceaipharmamedtechcompliance

Por qué las respuestas regulatorias generadas por IA necesitan citas (y por qué la propia IA de la FDA no las tiene)

RegAid Team9 min de lectura
Por qué las respuestas regulatorias generadas por IA necesitan citas (y por qué la propia IA de la FDA no las tiene)

Los asuntos regulatorios no pueden basarse en respuestas de IA que no se pueden verificar. Ese principio pasó de buena práctica a noticia pública cuando se informó que la propia herramienta interna de IA de la FDA, Elsa, fabrica estudios inexistentes y tergiversa la investigación con seguridad. Tres empleados en activo de la FDA hablaron en nombre propio con CNN. La FDA indica ahora a su personal que verifique dos veces todo lo que diga Elsa antes de usarlo. Para los equipos de RA que evalúan herramientas de IA, la lección es directa: una IA que no puede anclar cada afirmación a una fuente primaria verificable es un pasivo, no un activo. Este artículo cubre qué falló con Elsa, qué significa realmente "IA citada", qué exige ya el marco de la FDA de enero de 2025 y qué exigir a cualquier herramienta.

Qué falló con Elsa

Elsa es un copiloto de IA generativa lanzado por la FDA en junio de 2025 (anuncio FDA). Fue concebido para ayudar a los revisores de la agencia a redactar documentos, buscar en registros internos y resumir presentaciones. La ambición de producto es razonable. La ejecución expuso un problema arquitectónico fundamental.

Empleados de la FDA dijeron a CNN que Elsa "inventa estudios inexistentes" y tergiversa la investigación. Revisores que consultaron a Elsa por datos de seguridad de un medicamento recibieron referencias a estudios que no aparecen en ninguna base de datos. Un funcionario de la FDA afirmó públicamente: "Todo lo que no tengas tiempo de volver a comprobar es poco fiable. Alucina con seguridad."

La causa raíz no es específica de Elsa. Es una propiedad compartida por cualquier modelo de lenguaje grande de propósito general: sin una capa de retrieval que ancle la generación en documentos fuente verificados, el modelo produce texto estadísticamente plausible pero no fácticamente fiable. Pedirle una referencia y genera algo que parece una referencia. Pedirle la conclusión de un estudio y genera algo que parece una conclusión. Que esas salidas correspondan a documentos reales es, desde la óptica del modelo, secundario.

A Elsa le falta lo que importa para uso regulatorio: una cadena transparente desde cada afirmación generada hasta una fuente primaria que un revisor pueda abrir y verificar.

El problema central: LLM no anclado frente a RAG

Las herramientas de IA generativa en trabajo regulatorio caen en dos clases arquitectónicas.

LLM no anclado: el modelo genera respuestas desde la memoria paramétrica (lo que aprendió durante el entrenamiento). Puede citar con fluidez pero no puede probar que cita alguna corresponda a una fuente real. Así funciona Elsa en la práctica.

Retrieval-Augmented Generation (RAG): el modelo está obligado a recuperar pasajes de un corpus confiable (documentos primarios de agencias, leyes, guías) antes de generar. Cada afirmación queda enlazada al pasaje del que proviene. El usuario puede abrir el documento original.

Un estudio publicado en 2026 que evalúa el RAG para la conformidad regulatoria de información sobre medicamentos midió una relevancia de respuestas del 100 por ciento y una fidelidad del 95 por ciento, es decir, casi toda afirmación generada era rastreable a los documentos fuente recuperados. La misma tarea, realizada por un LLM no anclado, produce tasas de fabricación lo suficientemente altas como para que la propia implementación de la FDA no superara sus controles de calidad.

La diferencia arquitectónica importa más que el tamaño o la marca del modelo. Un modelo más pequeño con RAG superará a uno más grande sin RAG, porque el cuello de botella del trabajo regulatorio no es la creatividad, es la verificabilidad.

Qué significa "citado" realmente en una herramienta de IA

"Citado" se usa con libertad en el marketing de IA. Para el trabajo regulatorio, una cita solo es significativa si cumple cuatro criterios.

1. Enlaza al pasaje exacto, no al documento. "Véase la guidance de la FDA" no es una cita. "21 CFR 314.80(c)(1)(i) en eCFR" con URL directa al inciso citado es una cita.

2. Enlaza a una fuente primaria, no a un resumen secundario. Una cita a un blog de comentario no equivale a una cita a la notificación del Federal Register que el blog describe.

3. La IA la recuperó antes de generar la respuesta. Si la IA genera primero y después añade una cita plausible, la cita puede no corresponder a lo que afirma la respuesta. RAG recupera primero, genera después.

4. El usuario puede abrirla y verificarla con un clic. Si la cita exige una búsqueda, el paso de verificación se pierde a nivel humano. Un enlace profundo clicable no es negociable para los flujos RA.

Las herramientas que fallan cualquiera de estos cuatro test están más cerca de Elsa que de un asistente RA fiable.

El propio marco de la FDA ya lo exige

La ironía de Elsa es que la propia FDA publicó el marco que habría detectado el problema. El 6 de enero de 2025, la FDA publicó el borrador de guidance Considerations for the Use of Artificial Intelligence to Support Regulatory Decision-Making for Drug and Biological Products. La guidance establece un marco de credibilidad basado en el riesgo en 7 pasos e introduce dos conceptos directamente relevantes para este artículo.

Context of use (COU): una declaración escrita de para qué exactamente se utiliza el modelo de IA, qué entradas acepta y qué decisiones sustenta su salida. Sin un COU definido, la credibilidad no puede evaluarse en absoluto.

Credibility assessment: una evaluación estructurada de si el desempeño del modelo es adecuado para el COU reclamado, incluyendo gobernanza de datos, diseño del modelo y transparencia hacia los usuarios.

Aplicado a Elsa: su contexto de uso se desplazó de "asistente de búsqueda documental" a "fuente primaria de investigación", y la evaluación de credibilidad para este último nunca se realizó. Los principios guía conjuntos EMA-FDA publicados en enero de 2026 consolidaron estos mismos requisitos a nivel internacional con un principio sobre "gobernanza y documentación de datos" y otro sobre "contexto de uso claro". Los principios describen, en lenguaje regulatorio, las propiedades exactas que un sistema RAG citado-primero proporciona de forma nativa.

Qué exigir a cualquier herramienta de IA RA: checklist en 7 puntos

Al evaluar una herramienta de IA para trabajo regulatorio, una checklist breve separa los productos que se comportan como Elsa de los que cumplen las expectativas regulatorias.

  1. Pida una respuesta citada a una pregunta regulatoria concreta y abra cada cita. Si alguna cita no corresponde a la afirmación, detenga la evaluación.
  2. Pregunte cuál es el corpus fuente. Una herramienta que no puede nombrar sus fuentes primarias (guidances de la FDA, scientific guidelines de la EMA, documentos MDCG, eCFR, EUR-Lex, directrices ICH, normas ISO) genera desde memoria paramétrica, no desde retrieval.
  3. Verifique que el retrieval es real, no a posteriori. Pregunte si el modelo recupera pasajes antes de generar o añade las citas después. Solo lo primero es RAG.
  4. Revise la granularidad de las citas. ¿Son a nivel documento ("véase la guidance FDA X") o a nivel cláusula ("21 CFR 314.80(c)(1)(i)")? El nivel cláusula es requisito.
  5. Pruebe la fabricación. Haga una pregunta que sabe que no tiene una buena respuesta fuente. Una herramienta bien anclada lo dirá. Una herramienta frágil inventará una.
  6. Pregunte por la actualización del corpus. Una herramienta cuyo índice se congeló hace un año no es adecuada para el trabajo regulatorio, que cambia semanalmente.
  7. Contraste la documentación de la herramienta con el marco FDA de credibilidad en 7 pasos. Si el proveedor no puede mapear su producto a COU y credibility assessment, el producto no está listo para uso RA.

Pruebe esto en RegAid: ¿Qué dice la guidance de la FDA sobre credibilidad de IA para presentaciones de medicamentos?

Malentendidos frecuentes

"Todas las grandes herramientas de IA ya citan": muchas añaden citas como barniz de UI mientras siguen generando principalmente desde memoria paramétrica. La cita puede no corresponder a la afirmación. Es el patrón Elsa maquillado. Pruebe cada herramienta antes de confiar en ella.

"Si el LLM está fine-tuned sobre regulaciones, es seguro": el fine-tuning ajusta pesos del modelo pero no garantiza retrieval. Un modelo fine-tuned puede seguir inventando citas. La propiedad de seguridad proviene de la arquitectura (retrieval + enlaces verificables), no solo de los datos de entrenamiento.

"FDA Elsa es un producto gubernamental, seguro que es fiable": Elsa es una herramienta interna de la agencia sujeta a las mismas limitaciones que cualquier LLM no anclado. Los propios empleados de la FDA han manifestado reservas en público. El origen no confiere fiabilidad.

"Las citas ralentizan la IA": el retrieval añade un paso, pero un sistema RAG bien diseñado responde en segundos, no en minutos. El coste de latencia es trivial frente al coste de verificación de una respuesta no anclada.

"Sirve para borradores iniciales, los humanos revisan el final": es el argumento más peligroso. Una IA que produce borradores plausibles-pero-falsos ancla a los revisores hacia conclusiones equivocadas. La investigación en psicología cognitiva sobre efectos de anclaje muestra que incluso revisores conscientes de los límites de la IA se ven influidos por el borrador inicial. Si la IA no es fiable para un borrador, no puede usarse para un borrador.

Puntos clave

  • La herramienta interna de IA Elsa de la FDA aparece públicamente fabricando estudios, ilustrando el riesgo de los LLM no anclados en trabajo regulatorio (CNN, julio de 2025)
  • La distinción arquitectónica es LLM no anclado frente a Retrieval-Augmented Generation (RAG); el RAG ancla cada afirmación a una fuente recuperada
  • Una cita solo es significativa si enlaza al pasaje exacto de una fuente primaria y la IA la recuperó antes de generar
  • El borrador de guidance FDA de enero de 2025 establece un marco de credibilidad en 7 pasos alrededor de "context of use" y "credibility assessment"
  • Los principios conjuntos EMA-FDA (enero de 2026) consolidan los mismos requisitos a nivel internacional
  • Evalúe cualquier herramienta de IA RA contra la checklist de 7 puntos; las herramientas que no pasan no son adecuadas para trabajo regulatorio

Cómo ayuda RegAid

RegAid está construida como plataforma de regulatory intelligence retrieval-first. Cada respuesta está anclada a pasajes recuperados del corpus de fuentes primarias: guidances de la FDA, scientific guidelines de la EMA, documentos MDCG, guidance de Swissmedic, eCFR, EUR-Lex, directrices ICH, normas ISO y notificaciones del Federal Register. Cada cita apunta en enlace profundo a la cláusula exacta. Pregunte "¿Qué dice la guidance de la FDA de enero de 2025 sobre context of use?" o "¿Cuál es la ingesta aceptable para N-nitroso-rivaroxabán?" y haga clic en la cita para abrir el documento primario en un paso. Sin estudios inventados. Sin citas a posteriori. Sin adivinanza de memoria paramétrica.