Die Drei-Tore-Verifikationsarchitektur | Auditierbare KI für klinische Studien | NexTrial.ai

Eine Anmerkung zu unserer Haltung

Dies ist ein methodischer Beitrag, angeboten unter einer Haltung des Engagements, nicht der Billigung. Nichts hierin behauptet regulatorische Zulassung, Zertifizierung oder Konformität mit einer bestimmten Norm. Wir zitieren regulatorische Rahmenwerke, um Design-Übereinstimmung zu zeigen, nicht die Zustimmung einer Behörde. Die Methodik ist GxP-orientiert, nicht GxP-validiert, und NexTrial hält keine Zertifizierung. Wenn eine Komponente entworfen, aber noch nicht in Produktion ist, sagen wir das klar.

Warum ein Konfidenzwert eine Inspektion nicht besteht

Jedes regulatorische Rahmenwerk, das KI in der klinischen Forschung regelt, stützt sich auf dieselbe Anforderung. Eine regulierte Entscheidung muss rekonstruierbar sein, von den Quelldaten über die Logik, die auf sie angewandt wurde, bis zur Regel, die sie erzeugt hat, in dem Moment, in dem ein Inspektor fragt. Diese Anforderung steht in 21 CFR Part 11. Sie steht in ALCOA+. Sie steht in ICH E6(R3). Sie steht in den Artikeln 11, 13 und 14 des EU AI Act, und die Anforderungen an das Risikomanagement (Artikel 9) und die menschliche Aufsicht (Artikel 14) machen sie für Hochrisikosysteme verbindlich. Unter der MDR gilt dasselbe Prinzip, wo Software als Medizinprodukt einzustufen ist. Der Wortlaut ändert sich zwischen den Jurisdiktionen. Die Anforderung nicht.

Ein Konfidenzwert erfüllt nichts davon. Er ist nicht rekonstruierbar, nicht unabhängig reproduzierbar und in keiner Weise inspizierbar, die ein Verfahren zwei Jahre später überdauert. Schlimmer noch: Es ist das Modell, das seine eigene Arbeit bewertet. Ein Wert von 0,94 sagt, dass das Modell zuversichtlich ist. Er sagt nicht, welche Regel geprüft wurde, gegen welche Werte, in welcher Version, noch was der Betrieb bewusst einem Menschen überlassen hat. Eine Wahrscheinlichkeit war noch nie etwas, das man in eine Inspektion mitnehmen kann.

Die Frage lautet also nicht, wie man das Modell zuversichtlicher macht. Sie lautet, wie man ein Artefakt erzeugt, das eine benannte Person vertreten und ein Inspektor unabhängig erneut verifizieren kann. Dieses Artefakt zu erzeugen ist der Zweck der folgenden Architektur.

Das RBQM-Vortor: Risiko wird vor jeder Verifikation klassifiziert und eingefroren

Bevor ein Vorschlag die Verifikationstore erreicht, durchläuft er ein Vortor des risikobasierten Qualitätsmanagements. Das Vortor prüft keine Konformität, es ist also kein viertes Tor. Es tut genau eine Sache: Es klassifiziert das Risiko der Entscheidung, und diese Klassifikation bestimmt dann, wie sich der Rest des Ablaufs verhält.

Die Klasse ergibt sich aus zwei Achsen, denselben zwei, die der KI-Leitlinienentwurf der FDA zur Dimensionierung des Modellrisikos verwendet. Modelleinfluss ist, wie stark die KI-gestützte Ausgabe die Entscheidung tatsächlich gegenüber der übrigen Evidenz vor dem Prüfer treibt. Entscheidungskonsequenz ist die Schwere, falls die Entscheidung falsch ist, vom rein Administrativen am unteren Ende bis zur Teilnehmersicherheit oder regulatorischen Stellung am oberen Ende. Jede Achse wird als hoch, mittel oder niedrig bewertet, und das Paar ordnet die Entscheidung einer von vier Klassen zu: Kritisch, Hoch, Moderat oder Niedrig.

Die Positionierung ist der Punkt. Diese Kette liegt in der Design-Schicht, stromaufwärts jedes Monitoring-Dashboards, weil die lebendige Integritätsfrage bei KI-gestützten Studien nicht nur darin besteht, Fehler zu fangen, nachdem sie geschehen sind. Es geht darum, darauf zu vertrauen, dass die Identifikation dessen, was überhaupt wichtig war, solide war. Dieses Vertrauen wird in der Design-Schicht hergestellt oder verweigert, nicht in einem Dashboard stromabwärts des First Patient In.

Die hier zugewiesene Klasse wird im Nachweiszertifikat zum Entscheidungszeitpunkt eingefroren und parametrisiert drei Dinge: die Strenge an jedem Tor, die Kadenz der Reverifikation und die Stufe der geforderten menschlichen Attestierung. Da die Klasse vor der Verifikation zugewiesen und in die Aufzeichnung geladen wird, kann ein Prüfer nicht versehentlich eine Niedrigrisiko-Behandlung auf eine Hochrisiko-Entscheidung anwenden. Die Verhältnismäßigkeit zum Risiko wird strukturell, statt Sache des Ermessens im Nachhinein.

Die drei Tore

Tor 1

Deterministische Konformitätsverifikation

Das erste Tor wendet die einschlägigen Regeln, in der jeweils gültigen Version, auf die benannten Quellwerte an und gibt eine Bestanden-oder-Nichtbestanden-Bestimmung mit Zitiergenauigkeit zurück. Es ist deterministisch und auf die Konformitätsprüfung beschränkt, nicht auf offene Texterzeugung. Es ist zudem regeltyp-agnostisch, denn eine Regel ist eine Regel, unabhängig von ihrer Herkunft. Derselbe Betrieb prüft eine nach Abschnitt und Unterabschnitt zitierte Norm, ein Protokollkriterium, einen Schritt einer Standardarbeitsanweisung und eine jurisdiktionsspezifische Anforderung. Ein einziges Beweisregime umfasst alle vier Quellen, und die Jurisdiktion wird als erstklassige Dimension behandelt, nicht auf einen globalen Standard reduziert.

Tor 2

Struktureller Nachweis

Entworfen, nicht in Produktion

Das zweite Tor ist ein formaler, maschinenprüfbarer Nachweis der strukturellen Integrität und logischen Form der Bestimmung. Es verifiziert, dass die geforderten Elemente vorhanden sind, dass Referenzen sich auflösen, dass kein struktureller Widerspruch besteht und dass definierte Grenzen halten. Es beweist nicht und kann nicht beweisen, dass eine Ausgabe semantisch korrekt ist, dass die angewandte Regel erfasst, was die Norm tatsächlich meint. Eine Norm ist Prosa in menschlicher Sprache, die in eine berechenbare Prüfung übersetzt werden muss, und der Nachweis operiert auf der Übersetzung, nicht auf der Norm. Ein Nachweis kann makellos sein, während die Kodierung darunter falsch ist. Tor 2 beseitigt dieses Risiko nicht. Es konzentriert es an einem einzigen inspizierbaren Ort, der Kodierung selbst. Wir beschreiben hier, was die Architektur beabsichtigt, und achten darauf zu sagen, wo derzeit die Grenze zwischen entworfen und in Betrieb verläuft.

Tor 3

Menschliche Aufsicht und Attestierung

Das dritte Tor ist ein qualifizierter menschlicher Prüfer. Der Prüfer bewertet die vorgeschlagene Bestimmung, das vom Vortor und den ersten beiden Toren erzeugte Zertifikat und die Grenzenerklärung und akzeptiert dann, lehnt ab oder fordert eine Überarbeitung. Die endgültige regulierte Entscheidung liegt beim Menschen. Da die Bestimmung mit ihren Regelzitaten und Quellwerten eintrifft, verifiziert der Prüfer eine zitierte Bestimmung, statt die Analyse von Grund auf neu zu erstellen. Eine Ablehnung kann einen Zyklus auslösen, in dem das Problem gemildert, die Verifikation erneut ausgeführt wird und die Bestimmung konvergiert oder eskaliert. Was der Prüfer unterzeichnet, ist spezifisch, ein Bericht darüber, was tatsächlich geprüft wurde, nicht eine generische Freigabe. Eine Unterschrift, die nichts Bestimmtes bezeugt, überdauert keine Inspektion zwei Jahre später.

Warum die drei Tore unkorreliert sind, und warum das der entscheidende Punkt ist

Eine deterministische Regelprüfung, ein formaler struktureller Nachweis und eine menschliche Attestierung sind drei verschiedene Substrate, deren Fehler kaum eine gemeinsame Ursache teilen. Eine Regelprüfung kann auf eine Weise irren, die ein struktureller Nachweis fangen würde. Ein struktureller Nachweis kann eine Bestimmung passieren lassen, die ein Mensch ablehnen würde. Ein Mensch kann bemerken, was keiner der Maschinenbetriebe zu sehen ausgelegt war. Evidenz aus Substraten, die auf unterschiedliche Weise versagen, ist die Grundlage einer verteidigbaren Validierung. Es ist diese Unabhängigkeit, nicht die Zahl der Schichten, die die Architektur trägt.

Ein Konfidenzwert ist das Gegenteil davon. Er wird von demselben Modell erzeugt, dessen Ausgabe er bewertet, und erbt daher deren blinde Flecken. Er ist korrelierte Evidenz im Gewand einer Prüfung. Derselbe Mangel tritt in jeder Anordnung auf, in der ein Modell ein anderes, auf denselben Daten trainiertes Modell prüft, wie das zweite Modell auch heißen mag. Und Unabhängigkeit ist keine Eigenschaft, die ein System einmal hat und behält. Unter kontinuierlichem Lernen können auf einem gemeinsamen Korpus neu trainierte Substrate still wieder korrelieren, sodass die Unabhängigkeit der Tore über die Zeit aktiv bewahrt und getestet werden muss. Wir behandeln das als offenes Problem, nicht als gelöst.

Das Nachweiszertifikat: acht Eigenschaften

Alles Obige existiert, um ein einziges Artefakt zu erzeugen. Das Nachweiszertifikat ist ein maschinenlesbares, signiertes und versioniertes Objekt, erstellt in dem Moment, in dem eine KI-gestützte Entscheidung getroffen wird. Es erfasst acht Eigenschaften, und jede trägt einen Zulässigkeitstest, die spezifische Inspektion, die ein Auditor gegen sie ausführen kann. Eine Eigenschaft, die nicht inspiziert werden kann, ist keine Eigenschaft dieses Zertifikats.

Angewandte Regel. Die spezifische Regel, nach Quelle, Zitat und Version, mit dem Snapshot des Regelsatzes und dem Gültigkeitsdatum. Zitiergenauigkeit, nicht "einschlägige Norm".
Verifizierte Werte. Die exakten Patienten-, Protokoll-, Zentrums- oder Betriebswerte, die geprüft wurden, aufgelistet statt zusammengefasst, jeder seiner Quelle zuordenbar.
Verifikationsbetrieb. Das deterministische Verfahren, das Bestanden oder Nichtbestanden zurückgab, als formales Prädikat ausdrückbar, von einem unabhängigen Prüfer reproduzierbar.
Grenzenerklärung. Was der Betrieb nicht geprüft hat und die dem verantwortlichen Menschen vorbehaltenen Ermessensfaktoren. Dies ist der Teil der Aufzeichnung, der eine Unterschrift bedeutsam macht.
Risikoklassifikation. Die vom Vortor zugewiesene und zum Entscheidungszeitpunkt eingefrorene Klasse, unter einer benannten, versionierten Taxonomie, die die Torstrenge und die Reverifikationskadenz indexiert.
Identität des menschlichen Prüfers. Die Identität und Rolle des attestierenden Menschen, an die Attestierung gebunden, mit dem verantwortlichen Prüfleiter als primär.
Override- und Eskalationsprotokoll. Ob der Mensch akzeptierte, ablehnte oder eine Überarbeitung forderte, jeder erhobene Einwand und wie er gelöst wurde, jede Override-Begründung und ob die Eskalationskriterien erfüllt waren.
Evidenz, nicht Ersatz. Eine ausdrückliche Erklärung, dass der Betrieb dem Prüfer vorgelegte Evidenz ist, nicht ein Ersatz für das unabhängige Urteil des Prüfers.

Dasselbe Objekt ist die technische Dokumentation, die Artikel 11 des EU AI Act verlangt, die Grundlage für die menschliche Aufsicht nach Artikel 14, das Transparenzartefakt nach Artikel 13 und der Audit-Trail nach 21 CFR Part 11. Keine dieser Anforderungen verlangt ein bestimmtes Substrat. Alle verlangen eine bestimmte Klasse von Artefakt. Ein Konfidenzwert erfüllt keine davon. Ein Zertifikat, das seine acht Zulässigkeitstests besteht, erfüllt alle auf einmal, und genau das bedeutet "auditierbar", wenn ein Inspektor im Raum ist.

Was diese Architektur bewusst nicht tut

Die präzise Behauptung zählt hier, denn die übertriebene Version wäre falsch, und ein Regulierer hätte recht, ihr zu misstrauen. Wir behaupten kein Modell, das nie halluziniert. Wir behaupten nicht, Drift zu beseitigen. Und Tor 2 beweist nicht, dass die Kodierung einer Norm in eine berechenbare Prüfung dem treu ist, was die Norm meinte.

Letzteres ist die schwierigste Frage im gesamten Design, und wir stellen sie nach vorn, statt sie zu glätten. Wenn eine Norm zu einer berechenbaren Regel wird, musste sie jemand übersetzen. Wer zertifiziert, dass die Kodierung treu ist, und wer haftet, wenn die Prüfung strukturell perfekt und semantisch falsch ist? Ein Nachweis kann makellos sein und dennoch einen Fehler zertifizieren, weil er auf der Kodierung operiert, nicht auf der Norm, die die Kodierung erfassen sollte. Was die Architektur tut, ist, dieses Risiko an einem einzigen inspizierbaren Ort zu konzentrieren, statt es über ein probabilistisches System zu verteilen, wo es nicht gefunden werden kann. Die Konzentration ist der Beitrag. Sie ist keine Heilung. Ein Standard, den anzunehmen sich lohnt, ist einer, dessen schwierigste Frage benannt wurde, bevor sie fixiert wurde, und dies ist unsere.

Die vollständige Behandlung des Zertifikats, der Risikotaxonomie, des Problems des kontinuierlichen Lernens und der Kodierungsfrage findet sich im the full Regulatory Validation Framework. Für das grundlegende Argument, why a confidence score cannot pass inspection, sowie für das DIA-2026-Poster und das Multi-Behörden-Engagement siehe our research. Dieser Beitrag ist der Mechanismus in Kurzform. Das Rahmenwerk ist das vollständige Argument.

Das Modell schlägt vor; der Nachweis entscheidet. Nachweis, nicht Wahrscheinlichkeit. Evidenz, nicht Ersatz. Der Mensch entscheidet.