A Arquitetura de Verificação de Três Portões | IA Auditável para Ensaios Clínicos | NexTrial.ai

Uma nota sobre a nossa postura

Esta é uma contribuição metodológica oferecida sob uma postura de engajamento, não de endosso. Nada aqui afirma aprovação regulatória, certificação ou conformidade com qualquer norma específica. Citamos marcos regulatórios para demonstrar alinhamento de design, não concordância de qualquer agência. A metodologia é alinhada às BPx (GxP), não validada em BPx, e a NexTrial não detém nenhuma certificação. Quando um componente é projetado, mas ainda não está em produção, dizemos isso de forma clara.

Por que uma pontuação de confiança não passa em uma inspeção

Todo marco regulatório que rege a IA na pesquisa clínica se apóia na mesma exigência. Uma decisão regulada precisa ser reconstruível, do dado-fonte, passando pela lógica que atuou sobre ele, até a regra que a produziu, no momento em que um inspetor pergunta. Essa exigência está no 21 CFR Part 11. Está no ALCOA+. Está na ICH E6(R3). Está nos Artigos 11, 13 e 14 do EU AI Act. No Brasil, ela está na Lei 14.874/2024 e na RDC 945/2024 da ANVISA, e a exigência de explicabilidade da CFM 2.454/2026 reforça o mesmo princípio diante do CEP/CONEP e da LGPD. A redação muda entre jurisdições. A exigência, não.

Uma pontuação de confiança não atende a nada disso. Não é reconstruível, não é reproduzível de forma independente e não é inspecionável de nenhuma maneira que sobreviva a um procedimento dois anos depois. Pior: é o modelo avaliando o próprio trabalho. Uma pontuação de 0,94 diz que o modelo está confiante. Não diz qual regra foi checada, contra quais valores, em qual versão, nem o que a operação deliberadamente deixou para um humano. Uma probabilidade nunca foi algo que se possa levar a uma inspeção.

Portanto, a pergunta não é como deixar o modelo mais confiante. É como produzir um artefato que uma pessoa nomeada possa sustentar e que um inspetor possa reverificar de forma independente. Esse artefato é o que a arquitetura a seguir existe para produzir.

O pré-portão de RBQM: o risco é classificado e congelado antes de qualquer verificação

Antes de uma proposta chegar aos portões de verificação, ela passa por um pré-portão de gestão de qualidade baseada em risco. O pré-portão não checa conformidade, portanto não é um quarto portão. Ele faz uma única coisa: classifica o risco da decisão, e essa classificação passa então a reger como o restante do fluxo se comporta.

A classe vem de dois eixos, os mesmos dois que a minuta de orientação de IA da FDA usa para dimensionar o risco do modelo. Influência do modelo é o quanto a saída assistida por IA de fato conduz a decisão em relação às demais evidências diante do revisor. Consequência da decisão é a severidade caso a decisão esteja errada, do puramente administrativo, no extremo baixo, até a segurança do participante ou a posição regulatória, no extremo alto. Cada eixo é pontuado como alto, médio ou baixo, e o par coloca a decisão em uma de quatro classes: Crítica, Alta, Moderada ou Baixa.

O posicionamento é o ponto. Esta cadeia fica na camada de design, a montante de qualquer painel de monitoramento, porque a questão viva de integridade em ensaios assistidos por IA não é apenas capturar erros depois que acontecem. É confiar que a identificação do que importava em primeiro lugar foi sólida. Essa confiança é estabelecida ou negada na camada de design, não em um painel a jusante do First Patient In.

A classe atribuída aqui é congelada no certificado de prova no momento da decisão e parametriza três coisas: o rigor aplicado em cada portão, a cadência de reverificação e o nível de atestação humana exigido. Como a classe é atribuída antes da verificação e carregada no registro, um revisor não pode acidentalmente aplicar tratamento de baixo risco a uma decisão de alto risco. A proporcionalidade ao risco torna-se estrutural, e não uma questão de discrição de alguém depois do fato.

Os três portões

Portão 1

Verificação determinística de conformidade

O primeiro portão aplica as regras cabíveis, vigentes na versão pertinente, aos valores-fonte nomeados, e retorna uma determinação de aprovado ou reprovado com precisão de citação. É determinístico e está restrito à checagem de conformidade, e não à geração aberta de texto. Também é agnóstico quanto ao tipo de regra, porque uma regra é uma regra, independentemente de sua origem. A mesma operação checa uma norma citada por seção e subseção, um critério de protocolo, um passo de procedimento operacional padrão e um requisito específico de jurisdição. Um único regime probatório abrange as quatro fontes, e a jurisdição é tratada como dimensão de primeira classe, e não achatada em um padrão global.

Portão 2

Prova estrutural

Projetado, não está em produção

O segundo portão é uma prova formal, verificável por máquina, da integridade estrutural e da forma lógica da determinação. Ele verifica que os elementos exigidos estão presentes, que as referências se resolvem, que não existe contradição estrutural e que os limites definidos se sustentam. Ele não prova, e não pode provar, que uma saída é semanticamente correta, que a regra aplicada captura o que a norma de fato pretende. Uma norma é prosa em linguagem humana que precisa ser traduzida em uma checagem computável, e a prova opera sobre a tradução, não sobre a norma. Uma prova pode ser impecável enquanto a codificação por baixo dela está errada. O Portão 2 não elimina esse risco. Ele o concentra em um único lugar inspecionável, a própria codificação. Descrevemos aqui como a arquitetura pretende, e temos o cuidado de dizer onde fica atualmente a linha entre projetado e em operação.

Portão 3

Supervisão e atestação humana

O terceiro portão é um revisor humano qualificado. O revisor avalia a determinação proposta, o certificado produzido pelo pré-portão e pelos dois primeiros portões, e a declaração de limites, e então aceita, rejeita ou pede revisão. A decisão regulada final é do humano. Como a determinação chega carregando suas citações de regra e valores-fonte, o revisor está verificando uma determinação citada, e não reconstruindo a análise do zero. Uma rejeição pode acionar um ciclo em que o problema é mitigado, a verificação é reexecutada e a determinação converge ou escala. O que o revisor assina é específico, um relato do que foi efetivamente checado, e não uma aprovação genérica. Uma assinatura que atesta nada em particular não sobrevive a uma inspeção dois anos depois.

Por que os três portões não são correlacionados, e por que isso é o ponto central

Uma checagem determinística de regra, uma prova estrutural formal e uma atestação humana são três substratos diferentes cujos erros dificilmente compartilham uma causa comum. Uma checagem de regra pode errar de um modo que uma prova estrutural capturaria. Uma prova estrutural pode passar em uma determinação que um humano rejeitaria. Um humano pode perceber o que nenhuma das operações de máquina foi escopada para ver. Evidência extraída de substratos que falham de maneiras diferentes é a base de uma validação defensável. É essa independência, e não o número de camadas, que faz a arquitetura se sustentar.

Uma pontuação de confiança é o oposto disso. É gerada pelo mesmo modelo cuja saída ela pontua, portanto herda os pontos cegos dessa saída. É evidência correlacionada vestindo o rótulo de uma checagem. O mesmo defeito aparece em qualquer arranjo em que um modelo checa outro modelo treinado nos mesmos dados, qualquer que seja o nome do segundo modelo. E independência não é uma propriedade que um sistema tem uma vez e mantém. Sob aprendizado contínuo, substratos re-treinados em um corpus compartilhado podem silenciosamente voltar a se correlacionar, de modo que a independência dos portões precisa ser ativamente preservada e testada ao longo do tempo. Tratamos isso como um problema em aberto, não resolvido.

O certificado de prova: oito propriedades

Tudo acima existe para produzir um único artefato. O certificado de prova é um objeto legível por máquina, assinado e versionado, criado no momento em que uma decisão assistida por IA é tomada. Ele registra oito propriedades, e cada uma carrega um teste de admissibilidade, a inspeção específica que um auditor pode executar contra ela. Uma propriedade que não pode ser inspecionada não é uma propriedade deste certificado.

Regra invocada. A regra específica, por fonte, citação e versão, com o snapshot do conjunto de regras e a data de vigência. Precisão de citação, não "norma aplicável".
Valores verificados. Os valores exatos de paciente, protocolo, centro ou operação que foram checados, listados em vez de resumidos, cada um atribuível à sua fonte.
Operação de verificação. O procedimento determinístico que retornou aprovado ou reprovado, expressável como predicado formal, reproduzível por um verificador independente.
Declaração de limites. O que a operação não checou, e os fatores de julgamento reservados ao humano responsável. Esta é a parte do registro que faz uma assinatura significar algo.
Classificação de risco. A classe atribuída pelo pré-portão e congelada no momento da decisão, sob uma taxonomia nomeada e versionada, indexando o rigor dos portões e a cadência de reverificação.
Identidade do revisor humano. A identidade e o papel do humano que atestou, vinculados à atestação, com o investigador principal responsável como primário.
Registro de override e escalação. Se o humano aceitou, rejeitou ou pediu revisão, qualquer contestação levantada e como foi resolvida, qualquer justificativa de override e se os critérios de escalação foram atingidos.
Evidência, não substituição. Uma declaração explícita de que a operação é evidência apresentada ao revisor, não uma substituição do julgamento independente do revisor.

O mesmo objeto é a documentação técnica que o Artigo 11 do EU AI Act pede, a base para a supervisão humana sob o Artigo 14, o artefato de transparência sob o Artigo 13 e a trilha de auditoria sob o 21 CFR Part 11. Nenhum desses requisitos exige um substrato específico. Todos eles exigem uma classe específica de artefato. Uma pontuação de confiança não satisfaz nenhum deles. Um certificado que passa em seus oito testes de admissibilidade satisfaz todos de uma vez, que é o que "auditável" de fato significa quando um inspetor está na sala.

O que esta arquitetura deliberadamente não faz

A afirmação precisa importa aqui, porque a versão exagerada seria falsa e um regulador teria razão em desconfiar dela. Não afirmamos um modelo que nunca alucina. Não afirmamos eliminar o drift. E o Portão 2 não prova que a codificação de uma norma em uma checagem computável é fiel ao que a norma quis dizer.

Essa última é a pergunta mais difícil de todo o design, e a colocamos à frente em vez de suavizá-la. Quando uma norma vira uma regra computável, alguém teve de traduzi-la. Quem certifica que a codificação é fiel, e quem responde quando a checagem é estruturalmente perfeita e semanticamente errada? Uma prova pode ser impecável e ainda assim certificar um erro, porque opera sobre a codificação, não sobre a norma que a codificação deveria capturar. O que a arquitetura faz é concentrar esse risco em um único lugar inspecionável, em vez de difundi-lo por um sistema probabilístico onde ele não pode ser encontrado. A concentração é a contribuição. Não é uma cura. Um padrão que vale a pena adotar é aquele cuja pergunta mais difícil foi nomeada antes de ser fixada, e esta é a nossa.

O tratamento completo do certificado, da taxonomia de risco, do problema de aprendizado contínuo e da questão da codificação está em the full Regulatory Validation Framework. Para o caso fundacional sobre why a confidence score cannot pass inspection, e para o pôster do DIA 2026 e o engajamento multiagência, veja our research. Esta peça é o mecanismo em resumo. O framework é o argumento completo.

O modelo propõe; a prova decide. Prova, não probabilidade. Evidência, não substituição. O humano decide.