三门验证架构 | 面向临床试验的可审计 AI | NexTrial.ai

关于我们立场的说明

这是一项方法学贡献，基于参与而非背书的立场提出。本文不声称任何监管批准、认证或对任何特定标准的符合性。我们引用监管框架是为了展示设计上的一致性，而非任何机构的认可。该方法学与 GxP 对齐，而非经 GxP 验证，NexTrial 不持有任何认证。当某一组件已设计但尚未投入生产时，我们会明确说明。

为什么置信分无法通过检查

每一项规范临床研究中 AI 的监管框架都建立在同一项要求之上。一项受监管的决定必须可重建，从源数据，经由作用于它的逻辑，直到产生它的规则，就在检查员发问的那一刻。这项要求写在 21 CFR Part 11 中，写在 ALCOA+ 中，写在 ICH E6(R3) 中，写在 EU AI Act 第 11、13 和 14 条中。在中国，同样的原则体现于 NMPA 与 GCP 的数据可追溯性要求。措辞在不同司法管辖区之间有所变化，但要求不变。

置信分无法满足这一切。它不可重建，不可独立复现，也无法以任何能在两年后的程序中存续的方式接受检查。更糟的是，那是模型在评估自己的工作。0.94 的分数只说明模型很有把握，它不说明检查了哪条规则、对照哪些值、在哪个版本下，也不说明运算故意留给了人类什么。概率从来不是可以带进检查的东西。

所以问题不是如何让模型更有把握，而是如何产生一件可由指定人员承担、并可由检查员独立重新验证的工件。产生这件工件，正是下文架构存在的目的。

RBQM 前置门：风险在任何验证之前就被分类并冻结

在一项提议到达验证门之前，它会经过一个基于风险的质量管理前置门。前置门不检查符合性，因此它不是第四道门。它只做一件事：对决定的风险进行分类，而这一分类随后支配整个流程其余部分的行为。

类别来自两个维度，也就是 FDA 的 AI 指南草案用于衡量模型风险的那两个维度。模型影响力是指 AI 辅助输出在面对审阅者时相对于其余证据在多大程度上实际主导了决定。决定后果是指如果决定错误时的严重程度，从低端纯粹的行政事务，到高端的受试者安全或监管立场。每个维度均评为高、中或低，两者组合将决定置于四个类别之一：关键、高、中或低。

定位才是关键。这条链路位于设计层，处于任何监控仪表板的上游，因为 AI 辅助试验中活生生的完整性问题，不仅仅是在错误发生后捕捉它们，而是信任“首先识别出什么重要”这一判断本身是牢靠的。这份信任在设计层被建立或被否定，而非在 First Patient In 下游的仪表板中。

在此处分配的类别会在决定时刻被冻结到证明证书中，并参数化三件事：每道门所施加的严格程度、重新验证的频率，以及所需的人类证实级别。由于类别在验证之前分配并加载到记录中，审阅者不会意外地将低风险处理用于高风险决定。与风险成比例因此成为结构性的，而非事后某人自由裁量的问题。

三道门

第一道门

确定性符合性验证

第一道门将适用规则（以相应版本为准）应用于命名的源值，并返回具有引用精度的通过或不通过判定。它是确定性的，仅限于符合性检查，而非开放式文本生成。它也与规则类型无关，因为规则就是规则，无论其来源如何。同一运算会检查按章节和小节引用的标准、一项方案标准、一个标准操作规程步骤，以及一项特定司法管辖区要求。单一的举证机制涵盖四种来源，而司法管辖区被视为头等维度，而非被压缩为单一全球标准。

第二道门

结构性证明

已设计，尚未投入生产

第二道门是对判定的结构完整性与逻辑形式的形式化、可机器校验的证明。它验证所需元素均存在、引用能够解析、不存在结构性矛盾，以及所定义的边界成立。它不能也无法证明输出在语义上是正确的，即所应用的规则确实捕捉了标准的真正意图。标准是人类语言的散文，必须被翻译为可计算的检查，而证明作用于该翻译，而非标准本身。证明可以无懈可击，而其下的编码却是错的。第二道门不消除这一风险，而是将其集中到一个可检查的单一位置，即编码本身。我们在此描述架构的意图，并谨慎地说明目前“已设计”与“已运行”之间的界限所在。

第三道门

人类监督与证实

第三道门是一名合格的人类审阅者。审阅者评估所提议的判定、由前置门和前两道门产生的证书以及边界声明，然后接受、拒绝或要求修订。最终受监管的决定属于人类。由于判定携带其规则引用和源值而来，审阅者是在校验一个已引用的判定，而非从零开始重建分析。拒绝可以触发一个循环，其中问题得到缓解、验证被重新执行，判定收敛或升级。审阅者所签署的是具体的，是对实际检查了什么的记述，而非笼统的批准。一份未证实任何具体事项的签名，无法在两年后的检查中存续。

为什么三道门互不相关，以及为什么这才是关键

确定性规则检查、形式化结构证明和人类证实是三种不同的底层，它们的错误几乎不共享共同成因。规则检查可能以结构证明会捕捉到的方式出错。结构证明可能放行一个人类会拒绝的判定。人类可能注意到任何机器运算都未被设定去看的东西。从以不同方式失效的底层中提取的证据，是可辩护验证的基础。支撑这一架构的是这种独立性，而非层数的多少。

置信分恰恰相反。它由其所评分的同一模型生成，因而继承了该输出的盲点。它是披着检查外衣的相关证据。同样的缺陷出现在任何一个模型检查另一个用相同数据训练的模型的安排中，无论第二个模型叫什么名字。而且独立性并非系统一旦拥有就永久保持的属性。在持续学习下，在共享语料库上重新训练的底层可能悴然重新相关，因此门的独立性必须随时间推移而被主动保护和测试。我们将其视为一个尚未解决的开放问题。

证明证书：八项属性

以上一切存在的目的，都是为了产生单一工件。证明证书是一个可机器读取、经签名且版本化的对象，在做出 AI 辅助决定的那一刻创建。它记录八项属性，每一项都携带一项可采性测试，即审计员可以对其执行的特定检查。一项无法被检查的属性，不是本证书的属性。

所用规则。特定规则，按来源、引用和版本，附规则集快照和生效日期。引用精度，而非“适用标准”。
已验证的值。被检查的确切的患者、方案、中心或运算值，逐一列出而非概括，每个都可追溯到其来源。
验证运算。返回通过或不通过的确定性程序，可表达为形式谓词，可由独立校验者复现。
边界声明。运算未检查的内容，以及保留给负责人类的判断因素。这是使签名有意义的那部分记录。
风险分类。由前置门分配并在决定时刻冻结的类别，处于命名、版本化的分类法下，索引门的严格程度和重新验证频率。
人类审阅者身份。进行证实的人类的身份和角色，与证实绑定，以负责的主要研究者为主。
覆盖与升级记录。人类是接受、拒绝还是要求修订，所提出的任何异议及其解决方式，任何覆盖理由，以及是否达到升级标准。
证据，而非替代。一项明确声明：该运算是呈交给审阅者的证据，而非对审阅者独立判断的替代。

同一对象就是 EU AI Act 第 11 条所要求的技术文档，是第 14 条下人类监督的基础，是第 13 条下的透明度工件，也是 21 CFR Part 11 下的审计迹。这些要求无一要求特定的底层。它们全都要求特定类别的工件。置信分无法满足其中任何一项。一张通过其八项可采性测试的证书则一次性满足全部，而这正是当检查员就在现场时“可审计”的真正含义。

这一架构有意不做什么

精确的表述在此至关重要，因为夸大的版本将是虚假的，而监管者有理由对其抱持怀疑。我们不声称一个从不产生幻觉的模型。我们不声称消除漂移。而且第二道门并不证明将标准编码为可计算检查忠实于标准的本意。

后者是整个设计中最棘手的问题，我们将其置于前台而非加以粉饰。当一项标准变成可计算规则时，总得有人去翻译它。谁来认证编码是忠实的，当检查在结构上完美而在语义上错误时又由谁负责？证明可以无懈可击，却仍然认证了一个错误，因为它作用于编码，而非编码本应捕捉的标准。架构所做的，是将这一风险集中到一个可检查的单一位置，而非将其弥散到一个无法找到它的概率系统中。集中就是贡献，它不是灵丹妙药。值得采纳的标准，是那种在被固定之前就已命名其最棘手问题的标准，而这就是我们的。

关于证书、风险分类法、持续学习问题以及编码问题的完整阐述，见 the full Regulatory Validation Framework。关于 why a confidence score cannot pass inspection 的基础性论证，以及 DIA 2026 海报与多机构参与，请见 our research。本文是机制的简要版。该框架才是完整论证。

模型提议；证明决定。证明，而非概率。证据，而非替代。人类决定。