La Arquitectura de Verificación de Tres Puertas

La Arquitectura de Verificación de Tres Puertas

La IA ya puede redactar y comprobar trabajo regulatorio de ensayos clínicos. Un humano designado aún debe decidir si es correcto, y un paciente convive con esa decisión. Esta es la arquitectura que hace que esa decisión sea auditable: una pre-puerta de riesgo, tres puertas de verificación que fallan de maneras distintas y un certificado de prueba que un inspector puede volver a ejecutar.

Steven Thompson, Founder and CEO, NexTrial.ai

Traducción pendiente de revisión humana. Un hablante nativo con familiaridad regulatoria revisa antes de la publicación.

Una nota sobre nuestra postura

Esta es una contribución metodológica ofrecida bajo una postura de compromiso, no de respaldo. Nada de lo aquí expuesto afirma aprobación regulatoria, certificación o conformidad con ninguna norma concreta. Citamos marcos regulatorios para mostrar alineación de diseño, no la conformidad de ninguna agencia. La metodología está alineada con las BPx (GxP), no validada en BPx, y NexTrial no posee ninguna certificación. Cuando un componente está diseñado pero aún no en producción, lo decimos con claridad.

Por qué una puntuación de confianza no supera una inspección

Todo marco regulatorio que rige la IA en la investigación clínica descansa sobre el mismo requisito. Una decisión regulada debe ser reconstruible, desde el dato de origen, pasando por la lógica que actuó sobre él, hasta la regla que la produjo, en el momento en que un inspector pregunta. Ese requisito está en 21 CFR Part 11. Está en ALCOA+. Está en ICH E6(R3). Está en los Artículos 11, 13 y 14 del EU AI Act, y en España se aplica a través de la AEMPS y la evaluación del CEIm, con el RGPD rigiendo los datos personales. La redacción cambia entre jurisdicciones. El requisito no.

Una puntuación de confianza no cumple nada de esto. No es reconstruible, no es reproducible de forma independiente y no es inspeccionable de ninguna manera que sobreviva a un procedimiento dos años después. Peor aún: es el modelo evaluando su propio trabajo. Una puntuación de 0,94 dice que el modelo está seguro. No dice qué regla se comprobó, contra qué valores, en qué versión, ni qué dejó deliberadamente la operación a un humano. Una probabilidad nunca fue algo que se pueda llevar a una inspección.

Así que la pregunta no es cómo hacer que el modelo esté más seguro. Es cómo producir un artefacto que una persona designada pueda sostener y que un inspector pueda volver a verificar de forma independiente. Producir ese artefacto es la razón de ser de la arquitectura que sigue.

La pre-puerta de RBQM: el riesgo se clasifica y se congela antes de cualquier verificación

Antes de que una propuesta llegue a las puertas de verificación, pasa por una pre-puerta de gestión de calidad basada en riesgo. La pre-puerta no comprueba conformidad, por lo que no es una cuarta puerta. Hace una sola cosa: clasifica el riesgo de la decisión, y esa clasificación pasa entonces a regir cómo se comporta el resto del flujo.

La clase surge de dos ejes, los mismos dos que el borrador de directriz de IA de la FDA usa para dimensionar el riesgo del modelo. Influencia del modelo es cuánto la salida asistida por IA conduce realmente la decisión frente al resto de la evidencia ante el revisor. Consecuencia de la decisión es la gravedad si la decisión es errónea, desde lo puramente administrativo en el extremo bajo hasta la seguridad del participante o la posición regulatoria en el extremo alto. Cada eje se puntúa como alto, medio o bajo, y el par sitúa la decisión en una de cuatro clases: Crítica, Alta, Moderada o Baja.

El posicionamiento es la clave. Esta cadena reside en la capa de diseño, aguas arriba de cualquier panel de monitorización, porque la cuestión viva de integridad en ensayos asistidos por IA no es solo capturar errores después de que ocurren. Es confiar en que la identificación de lo que importaba en primer lugar fue sólida. Esa confianza se establece o se niega en la capa de diseño, no en un panel aguas abajo del First Patient In.

La clase asignada aquí se congela en el certificado de prueba en el momento de la decisión y parametriza tres cosas: el rigor aplicado en cada puerta, la cadencia de reverificación y el nivel de atestación humana exigido. Como la clase se asigna antes de la verificación y se carga en el registro, un revisor no puede aplicar por accidente un tratamiento de bajo riesgo a una decisión de alto riesgo. La proporcionalidad al riesgo se vuelve estructural, en lugar de ser cuestión de la discreción de alguien después del hecho.

Las tres puertas

Puerta 1

Verificación determinista de conformidad

La primera puerta aplica las reglas pertinentes, vigentes en la versión correspondiente, a los valores de origen nombrados, y devuelve una determinación de aprobado o rechazado con precisión de cita. Es determinista y está restringida a la comprobación de conformidad, no a la generación abierta de texto. También es agnóstica respecto al tipo de regla, porque una regla es una regla, sea cual sea su origen. La misma operación comprueba una norma citada por sección y subsección, un criterio de protocolo, un paso de procedimiento normalizado de trabajo y un requisito específico de jurisdicción. Un único régimen probatorio abarca las cuatro fuentes, y la jurisdicción se trata como dimensión de primera clase, no aplanada en un estándar global.

Puerta 2

Prueba estructural

Diseñado, no en producción

La segunda puerta es una prueba formal, verificable por máquina, de la integridad estructural y la forma lógica de la determinación. Verifica que los elementos exigidos estén presentes, que las referencias se resuelvan, que no exista contradicción estructural y que los límites definidos se sostengan. No prueba, ni puede probar, que una salida sea semánticamente correcta, que la regla aplicada capture lo que la norma realmente pretende. Una norma es prosa en lenguaje humano que debe traducirse a una comprobación computable, y la prueba opera sobre la traducción, no sobre la norma. Una prueba puede ser impecable mientras la codificación subyacente es errónea. La Puerta 2 no elimina ese riesgo. Lo concentra en un único lugar inspeccionable, la propia codificación. Describimos aquí lo que la arquitectura pretende, y cuidamos de decir dónde está actualmente la línea entre diseñado y en operación.

Puerta 3

Supervisión y atestación humana

La tercera puerta es un revisor humano cualificado. El revisor evalúa la determinación propuesta, el certificado producido por la pre-puerta y las dos primeras puertas, y la declaración de límites, y entonces acepta, rechaza o pide revisión. La decisión regulada final es del humano. Como la determinación llega con sus citas de regla y valores de origen, el revisor verifica una determinación citada, en lugar de reconstruir el análisis desde cero. Un rechazo puede activar un ciclo en el que el problema se mitiga, la verificación se vuelve a ejecutar y la determinación converge o escala. Lo que el revisor firma es específico, un relato de lo que se comprobó realmente, no una aprobación genérica. Una firma que no atestigua nada en particular no sobrevive a una inspección dos años después.

Por qué las tres puertas no están correlacionadas, y por qué eso es lo esencial

Una comprobación determinista de regla, una prueba estructural formal y una atestación humana son tres sustratos distintos cuyos errores difícilmente comparten una causa común. Una comprobación de regla puede errar de un modo que una prueba estructural capturaría. Una prueba estructural puede dejar pasar una determinación que un humano rechazaría. Un humano puede advertir lo que ninguna de las operaciones de máquina fue diseñada para ver. La evidencia extraída de sustratos que fallan de maneras distintas es la base de una validación defendible. Es esa independencia, y no el número de capas, lo que hace que la arquitectura se sostenga.

Una puntuación de confianza es lo contrario de eso. La genera el mismo modelo cuya salida puntúa, por lo que hereda sus puntos ciegos. Es evidencia correlacionada disfrazada de comprobación. El mismo defecto aparece en cualquier disposición en la que un modelo comprueba otro modelo entrenado con los mismos datos, se llame como se llame el segundo modelo. Y la independencia no es una propiedad que un sistema tiene una vez y conserva. Bajo aprendizaje continuo, sustratos reentrenados sobre un corpus compartido pueden volver a correlacionarse en silencio, de modo que la independencia de las puertas debe preservarse y probarse activamente a lo largo del tiempo. Lo tratamos como un problema abierto, no resuelto.

El certificado de prueba: ocho propiedades

Todo lo anterior existe para producir un único artefacto. El certificado de prueba es un objeto legible por máquina, firmado y versionado, creado en el momento en que se toma una decisión asistida por IA. Registra ocho propiedades, y cada una lleva una prueba de admisibilidad, la inspección específica que un auditor puede ejecutar contra ella. Una propiedad que no puede inspeccionarse no es una propiedad de este certificado.

  1. Regla invocada. La regla específica, por fuente, cita y versión, con la instantánea del conjunto de reglas y la fecha de vigencia. Precisión de cita, no "norma aplicable".

  2. Valores verificados. Los valores exactos de paciente, protocolo, centro u operación que se comprobaron, enumerados en lugar de resumidos, cada uno atribuible a su fuente.

  3. Operación de verificación. El procedimiento determinista que devolvió aprobado o rechazado, expresable como predicado formal, reproducible por un verificador independiente.

  4. Declaración de límites. Lo que la operación no comprobó, y los factores de juicio reservados al humano responsable. Esta es la parte del registro que hace que una firma signifique algo.

  5. Clasificación de riesgo. La clase asignada por la pre-puerta y congelada en el momento de la decisión, bajo una taxonomía nombrada y versionada, que indexa el rigor de las puertas y la cadencia de reverificación.

  6. Identidad del revisor humano. La identidad y el rol del humano que atestó, vinculados a la atestación, con el investigador principal responsable como primario.

  7. Registro de override y escalado. Si el humano aceptó, rechazó o pidió revisión, cualquier objeción planteada y cómo se resolvió, cualquier justificación de override y si se alcanzaron los criterios de escalado.

  8. Evidencia, no sustitución. Una declaración explícita de que la operación es evidencia presentada al revisor, no una sustitución del juicio independiente del revisor.

El mismo objeto es la documentación técnica que pide el Artículo 11 del EU AI Act, la base para la supervisión humana bajo el Artículo 14, el artefacto de transparencia bajo el Artículo 13 y la traza de auditoría bajo 21 CFR Part 11. Ninguno de esos requisitos exige un sustrato específico. Todos exigen una clase específica de artefacto. Una puntuación de confianza no satisface ninguno. Un certificado que supera sus ocho pruebas de admisibilidad los satisface todos a la vez, que es lo que "auditable" significa de verdad cuando un inspector está en la sala.

Lo que esta arquitectura deliberadamente no hace

La afirmación precisa importa aquí, porque la versión exagerada sería falsa y un regulador tendría razón en desconfiar de ella. No afirmamos un modelo que nunca alucina. No afirmamos eliminar el drift. Y la Puerta 2 no prueba que la codificación de una norma en una comprobación computable sea fiel a lo que la norma quiso decir.

Esa última es la pregunta más difícil de todo el diseño, y la ponemos por delante en lugar de suavizarla. Cuando una norma se convierte en una regla computable, alguien tuvo que traducirla. Quién certifica que la codificación es fiel, y quién responde cuando la comprobación es estructuralmente perfecta y semánticamente errónea. Una prueba puede ser impecable y aún así certificar un error, porque opera sobre la codificación, no sobre la norma que la codificación debería capturar. Lo que la arquitectura hace es concentrar ese riesgo en un único lugar inspeccionable, en lugar de difundirlo por un sistema probabilístico donde no puede encontrarse. La concentración es la contribución. No es una cura. Un estándar que vale la pena adoptar es aquel cuya pregunta más difícil se nombró antes de fijarse, y esta es la nuestra.

El tratamiento completo del certificado, la taxonomía de riesgo, el problema del aprendizaje continuo y la cuestión de la codificación está en the full Regulatory Validation Framework. Para el argumento fundacional sobre why a confidence score cannot pass inspection, y para el póster del DIA 2026 y el compromiso multiagencia, vea our research. Esta pieza es el mecanismo en resumen. El marco es el argumento completo.

El modelo propone; la prueba decide. Prueba, no probabilidad. Evidencia, no sustitución. El humano decide.