L’architecture de vérification à trois portes | IA auditable pour les essais cliniques | NexTrial.ai

Une note sur notre posture

Il s’agit d’une contribution méthodologique proposée dans une posture d’engagement, et non d’approbation. Rien ici ne prétend à une autorisation réglementaire, à une certification ou à une conformité à une quelconque norme nommée. Nous citons les cadres réglementaires pour montrer un alignement de conception, et non un accord d’une agence. La méthodologie est alignée sur les BPx (GxP), non validée BPx, et NexTrial ne détient aucune certification. Lorsqu’un composant est conçu mais pas encore en production, nous le disons clairement.

Pourquoi un score de confiance ne résiste pas à une inspection

Chaque cadre réglementaire qui gouverne l’IA dans la recherche clinique repose sur la même exigence. Une décision réglementée doit être reconstructible, de la donnée source, à travers la logique qui a agi sur elle, jusqu’à la règle qui l’a produite, au moment où un inspecteur le demande. Cette exigence figure dans le 21 CFR Part 11. Elle figure dans ALCOA+. Elle figure dans l’ICH E6(R3). Elle figure dans les Articles 9 à 14 de l’EU AI Act, avec la documentation technique à l’Article 11, la transparence à l’Article 13 et la supervision humaine à l’Article 14. En Europe, l’EMA, l’ANSM et le RGPD posent la même attente de traçabilité. La formulation change selon les juridictions. L’exigence, non.

Un score de confiance n’en satisfait aucune. Il n’est pas reconstructible, il n’est pas reproductible de manière indépendante, et il n’est inspectable d’aucune façon qui survive à une procédure deux ans plus tard. Pire, c’est le modèle qui note son propre travail. Un score de 0,94 vous dit que le modèle est confiant. Il ne vous dit pas quelle règle a été vérifiée, contre quelles valeurs, à quelle version, ni ce que l’opération a délibérément laissé à un humain. Une probabilité n’a jamais été quelque chose que l’on puisse présenter à une inspection.

La question n’est donc pas comment rendre le modèle plus confiant. C’est comment produire un artefact qu’une personne nommée peut assumer et qu’un inspecteur peut revérifier de manière indépendante. Cet artefact est ce que l’architecture ci-dessous existe pour produire.

Le pré-portail RBQM : le risque est classé et figé avant toute vérification

Avant qu’une proposition n’atteigne les portes de vérification, elle passe par un pré-portail de gestion de la qualité fondée sur le risque. Le pré-portail ne vérifie pas la conformité, ce n’est donc pas une quatrième porte. Il fait une seule chose : il classe le risque de la décision, et cette classification gouverne ensuite le comportement du reste du pipeline.

La classe provient de deux axes, les deux mêmes que le projet d’orientation IA de la FDA utilise pour dimensionner le risque du modèle. L’influence du modèle est la mesure dans laquelle la sortie assistée par IA détermine réellement la décision par rapport aux autres preuves devant le relecteur. La conséquence de la décision est la gravité si la décision est erronée, du purement administratif à l’extrémité basse jusqu’à la sécurité du participant ou la situation réglementaire à l’extrémité haute. Chaque axe est noté élevé, moyen ou faible, et le couple place la décision dans l’une de quatre classes : Critique, Élevée, Modérée ou Faible.

Le placement est l’essentiel. Cette chaîne se situe à la couche de conception, en amont de tout tableau de bord de surveillance, car la question vive d’intégrité dans les essais assistés par IA n’est pas seulement de détecter les erreurs après qu’elles se produisent. C’est de faire confiance au fait que l’identification de ce qui importait au départ était solide. Cette confiance est établie ou refusée à la couche de conception, et non sur un tableau de bord en aval du First Patient In.

La classe attribuée ici est figée dans le certificat de preuve au moment de la décision, et elle paramètre trois choses : la rigueur appliquée à chaque porte, la cadence de revérification et le niveau d’attestation humaine requis. Parce que la classe est attribuée avant la vérification et portée dans l’enregistrement, un relecteur ne peut pas appliquer par inadvertance un traitement à faible risque à une décision à haut risque. La proportionnalité au risque devient structurelle plutôt qu’une affaire de discrétion de quiconque après coup.

Les trois portes

Porte 1

Vérification déterministe de conformité

La première porte applique les règles applicables, en vigueur à la version pertinente, aux valeurs sources nommées, et retourne une détermination réussite ou échec avec précision de citation. Elle est déterministe, et elle est limitée à la vérification de conformité plutôt qu’à la génération ouverte de texte. Elle est aussi agnostique au type de règle, car une règle est une règle quelle que soit son origine. La même opération vérifie une réglementation citée à la section et à la sous-section, un critère de protocole, une étape de procédure opératoire normalisée et une exigence propre à une juridiction. Un seul régime probatoire couvre les quatre sources, et la juridiction est traitée comme une dimension de premier ordre plutôt qu’aplatie dans un défaut global.

Porte 2

Preuve structurelle

Conçue, pas en production

La deuxième porte est une preuve formelle, vérifiable par machine, de l’intégrité structurelle et de la forme logique de la détermination. Elle vérifie que les éléments requis sont présents, que les références se résolvent, qu’aucune contradiction structurelle n’existe et que les limites définies tiennent. Elle ne prouve pas, et ne peut pas prouver, qu’une sortie est sémantiquement correcte, que la règle appliquée capture ce que la réglementation entend réellement. Une réglementation est une prose en langage humain qui doit être traduite en une vérification calculable, et la preuve opère sur la traduction, non sur la réglementation. Une preuve peut être irréprochable alors que l’encodage en dessous est erroné. La Porte 2 ne supprime pas ce risque. Elle le concentre en un seul endroit inspectable, l’encodage lui-même. Nous la décrivons ici telle que l’architecture l’entend, et nous prenons soin de dire où se situe actuellement la ligne entre conçu et en fonctionnement.

Porte 3

Supervision et attestation humaines

La troisième porte est un relecteur humain qualifié. Le relecteur évalue la détermination proposée, le certificat produit par le pré-portail et les deux premières portes, et l’énoncé de limites, puis accepte, rejette ou demande une révision. La décision réglementée finale appartient à l’humain. Parce que la détermination arrive en portant ses citations de règles et ses valeurs sources, le relecteur vérifie une détermination citée, et ne reconstruit pas l’analyse depuis zéro. Un rejet peut déclencher une boucle où le problème est atténué, la vérification est réexécutée, et la détermination converge ou est escaladée. Ce que le relecteur signe est spécifique, un compte rendu de ce qui a été réellement vérifié, et non une approbation générique. Une signature qui n’atteste de rien en particulier ne peut pas survivre à une inspection deux ans plus tard.

Pourquoi les trois portes ne sont pas corrélées, et pourquoi c’est l’essentiel

Une vérification déterministe de règle, une preuve structurelle formelle et une attestation humaine sont trois substrats différents dont les erreurs ont peu de chances de partager une cause commune. Une vérification de règle peut être erronée d’une manière qu’une preuve structurelle rattraperait. Une preuve structurelle peut réussir sur une détermination qu’un humain rejetterait. Un humain peut détecter ce qu’aucune des opérations machine n’était cadrée pour voir. Une preuve tirée de substrats qui échouent de façons différentes est la base d’une validation défendable. C’est cette indépendance, et non le nombre de couches, qui fait tenir l’architecture.

Un score de confiance est l’inverse de cela. Il est généré par le même modèle dont il note la sortie, il hérite donc des angles morts de cette sortie. C’est une preuve corrélée portant l’étiquette d’une vérification. Le même défaut apparaît dans tout dispositif où un modèle vérifie un autre modèle entraîné sur les mêmes données, quel que soit le nom du second modèle. Et l’indépendance n’est pas une propriété qu’un système acquiert une fois et conserve. Sous apprentissage continu, des substrats ré-entraînés sur un corpus partagé peuvent discrètement se re-corréler, de sorte que l’indépendance des portes doit être activement préservée et testée dans le temps. Nous traitons cela comme un problème ouvert, non résolu.

Le certificat de preuve : huit propriétés

Tout ce qui précède existe pour produire un seul artefact. Le certificat de preuve est un objet lisible par machine, signé et versionné, créé au moment où une décision assistée par IA est prise. Il enregistre huit propriétés, et chacune porte un test d’admissibilité, l’inspection spécifique qu’un auditeur peut exécuter contre elle. Une propriété qui ne peut pas être inspectée n’est pas une propriété de ce certificat.

Règle invoquée. La règle spécifique, par source, citation et version, avec l’instantané du jeu de règles et la date d’effet. Précision de citation, non "réglementation applicable".
Valeurs vérifiées. Les valeurs exactes de patient, de protocole, de site ou opérationnelles vérifiées, listées plutôt que résumées, chacune attribuable à sa source.
Opération de vérification. La procédure déterministe qui a retourné réussite ou échec, exprimable comme un prédicat formel, reproductible par un vérificateur indépendant.
Énoncé de limites. Ce que l’opération n’a pas vérifié, et les facteurs de jugement réservés à l’humain responsable. C’est la partie de l’enregistrement qui donne un sens à une signature.
Classification de risque. La classe attribuée par le pré-portail et figée au moment de la décision, sous une taxonomie nommée et versionnée, indexant la rigueur des portes et la cadence de revérification.
Identité du relecteur humain. L’identité et le rôle de l’humain qui a attesté, liés à l’attestation, avec l’investigateur principal responsable en primaire.
Enregistrement des dérogations et escalades. Si l’humain a accepté, rejeté ou demandé une révision, toute contestation soulevée et sa résolution, toute justification de dérogation, et si les critères d’escalade ont été remplis.
Des preuves, pas de substitution. Une déclaration explicite que l’opération est une preuve présentée au relecteur, et non une substitution au jugement indépendant du relecteur.

Le même objet est la documentation technique que demande l’Article 11 de l’EU AI Act, la base de la supervision humaine au titre de l’Article 14, l’artefact de transparence au titre de l’Article 13 et la piste d’audit au titre du 21 CFR Part 11. Aucune de ces exigences n’impose un substrat particulier. Toutes exigent une classe particulière d’artefact. Un score de confiance n’en satisfait aucune. Un certificat qui réussit ses huit tests d’admissibilité les satisfait toutes à la fois, ce qui est le sens réel d’"auditable" lorsqu’un inspecteur est dans la pièce.

Ce que cette architecture ne fait délibérément pas

La revendication précise importe ici, car la version exagérée serait fausse et un régulateur aurait raison de s’en méfier. Nous ne revendiquons pas un modèle qui n’hallucine jamais. Nous ne revendiquons pas l’élimination du drift. Et la Porte 2 ne prouve pas que l’encodage d’une réglementation en une vérification calculable est fidèle à ce que la réglementation voulait dire.

Cette dernière est la question la plus difficile de toute la conception, et nous la mettons en avant plutôt que de l’adoucir. Lorsqu’une réglementation devient une règle calculable, quelqu’un a dû la traduire. Qui certifie que l’encodage est fidèle, et qui est responsable lorsque la vérification est structurellement parfaite et sémantiquement fausse ? Une preuve peut être irréprochable et certifier tout de même une erreur, car elle opère sur l’encodage, non sur la réglementation que l’encodage était censé capturer. Ce que l’architecture fait, c’est concentrer ce risque en un seul endroit inspectable au lieu de le diffuser dans un système probabiliste où il ne peut être trouvé. La concentration est la contribution. Ce n’est pas un remède. Une norme qui vaut la peine d’être adoptée est celle dont la question la plus difficile a été nommée avant d’être fixée, et c’est la nôtre.

Le traitement complet du certificat, de la taxonomie de risque, du problème d’apprentissage continu et de la question de l’encodage se trouve dans the full Regulatory Validation Framework. Pour l’argument fondateur sur why a confidence score cannot pass inspection, et pour le poster DIA 2026 et l’engagement multi-agences, voir our research. Cet article est le mécanisme en un coup d’œil. Le cadre est l’argument complet.

Le modèle propose ; la preuve dispose. Preuve, pas probabilité. Des preuves, pas de substitution. C’est l’humain qui décide.