Validierung analytischer Methoden - Die neue USP-Monographie
Seit Mai dieses Jahres ist die lange erwartete / diskutierte USP-Monographie <1210> "STATISTICAL TOOLS FOR PROCEDURE VALIDATION" in Kraft.
In dieser Monographie werden aus der Basisguideline ICH Q2(R2) abgeleitete statistisch orientierte Auswertungen zur Methodenvalidierung beschrieben, die bei der Validierung von Vorschlägen für "Compendial Methods" gemäß USP <1025> verwendet werden können ("This chapter describes utilization of statistical approaches in procedure validation as described in Validation of Compendial Procedures <1225>.").
Selbstverständlich können diese Methoden (statistical tools) auch für die Validierung eigener produktspezifischer Prüfverfahren eingesetzt werden. Diese Anwendungssituation scheint den Autoren dieser Monographie sehr gegenwärtig zu sein, denn in der Mitte von Kapitel 3 heißt es zur Entscheidung für die eine oder andere Formel: "Selection of an interval will depend on … and a company's risk profile."
Wie alle USP-Monographien mit Nummern ab 1000 hat auch diese Monographie orientierenden und empfehlenden Charakter; dies wird sogar ausdrücklich betont ("Although some statistical interval examples are provided in 3. Accuracy and Precision, these methods are not intended to represent the only approach for data analysis, nor to imply that alternative methods are inadequate.").
Ergänzend wird darauf hingewiesen, dass die vorgestellten Methoden der statistischen Auswertung nicht die einzig möglichen sind ("This chapter presented some simple statistical methods that can be used in procedure validation as described in <1225>. These methods may not be applied in all situations, and other statistical approaches, both more and less sophisticated, may be appropriate for any particular situation.").
Das bedeutet, dass diese neue Monographie für die Alltagsarbeit der Methodenvalidierer insbesondere als Interpretationshilfe zur ICH-Guideline Q2 nützlich ist. Einige Erklärungen weit verbreiteter Vorgehensweisen (z.B. des in der ICH-Guideline zur Schätzung des LOD aus der Streuung ohne Begründung angegebenen Faktors (LOD≅3.3 * σ/Steigung, wobei 3.3≅2 × 1.645 mit Z1-α = Z1-β = 1.645)) sind als ergänzendes Hintergrundwissen interessant.
Der Veröffentlichung dieser Monographie vorausgegangen war eine ganze Serie umfangreicher Stimulus- Artikel im Pharmacopoeial Forum. Der Abschnitt zur statistischen Auswertung der Überprüfung der Kalibrierfunktion ("Linearitätsstudie") ist nicht mehr enthalten - somit geht es "nur noch" um die Auswertung der Untersuchungen zur Richtigkeit (Wiederfindungsrate / systematische Fehler (bias)) und zur Streuung (precision) und die Schätzung/Validierung von LOD und LOQ.
Seminarempfehlung
Neuss26./27. November 2024
Analytical Instrument Qualification and System Validation
Hinweise zur Vorbereitung einer Methodenvalidierung
In Kapitel 2 werden - z.T. in Form von Fragen - allgemeine Hinweise gegeben. Insbesondere wird auf die vor Beginn einer Validierung durchzuführenden Arbeiten (im Rahmen der Entwicklung / einer Validierungsvorstudie) verwiesen, die den Validierungsansatz und den Validierungsumfang (-aufwand) reduzieren können, ohne das Risiko einer Fehlentscheidung hinsichtlich der Routinetauglichkeit der Methode zu vergrößern. Hier wird der aufmerksam lesende Analytiker vieles von dem, was ihm - wenn nicht beachtet - immer wieder Schwierigkeiten gemacht hat, wiederfinden. In manchen Situationen sind Empfehlungen der USP stärker wirkende Argumente als Erfahrungen eines einzelnen Analytikers.Konfidenzintervalle zur Bewertung von Richtigkeit (accuracy) und Streuung (precision)
In Kapitel 3 wird zunächst auf die Auswertung der Versuche zur Richtigkeit eingegangen. Da Punktschätzer (z.B. eine mittlere Wiederfindungsrate) sehr unsicher sind, wird die Verwendung von Konfidenzintervallen empfohlen. Konfidenzintervalle enthalten mit definierter Irrtumswahrscheinlichkeit (z.B. α=5%) / mit definierter Zuverlässigkeit (z.B. P=95%) den geschätzten Parameter (den "wahren" Wert). In einer Art worst-case-Betrachtung soll geprüft werden, ob nicht nur die in einem Experiment ermittelte Wiederfindungsrate, sondern die um ihre Unsicherheit (das Konfidenzintervall) erweiterte Wiederfindungsrate (2-seitig: nach oben und nach unten) die vorab gesetzten Akzeptanzlimits einhält. Daraus resultiert eine Aussage mit z.B. 95% Zuverlässigkeit.
Eine analoge Vorgehensweise wird für die Bewertung der Streuung ("precision") skizziert, wobei jedoch nur das 1-seitige Konfidenzintervall verwendet wird, da eine geringere Streuung unschädlich ist.
Prognose-oder Toleranzintervalle zur kombinierten Auswertung von Richtigkeit und Streuung
Besonders interessant und zukunftweisend sind die Empfehlungen zur kombinierten Betrachtung / Bewertung von Richtigkeit und Streuung (gemeint sind nicht nur die weit verbreiteten Kombinationsversuche im Labor, sondern die kombinierte Betrachtung auch bei der Auswertung!).Hintergrund ist erstens die Tatsache, dass eine Wiederfindungsrate am Rand des Akzeptanzbereichs bei nicht kleiner Streuung (z.B. in der Nähe des Akzeptanzlimits für die Streuung (precision)) nicht ohne OOS-Risiken für die Routineanalytik akzeptiert werden kann. Dieser Ansatz, systematische Fehler (bias) und Zufallsstreuung gemeinsam zu betrachten und zu bewerten, ist an anderer Stelle schon länger eingeführt (Quantifying Uncertainty in Analytical Measurements, Eurachem / CITAC Guide CG 4 (2012 (1. Ausgabe 1995)), und dann: EDQM "Uncertainty of Measurement -Part 1" -General OMCL Policy for implementation of Measurement Uncertainty in Compliance Testing. Date of first adoption: 2001, revised document: 2007). Dieser Ansatz reflektiert die reale Anwendungssituation, in der einem konkreten Wert nicht anzusehen ist, wie weit er einen systematischen Fehler und wieviel Zufallsstreuung er enthält.
Hintergrund ist zweitens das Ansinnen, eher eine in die Zukunft gerichtete Aussage (zur Richtigkeit und zur Streuung KÜNFTIGER Routineanalytik) als eine rein rückblickende Analyse der Situation während der Validierungsstudie machen zu wollen.
Auch hier wird - in 2 Varianten - die Verwendung eines Intervalls vorgeschlagen:
Var. 1: Prognoseintervall - enthält mit α=5% Irrtumswahrscheinlichkeit den nächsten Wert die Richtigkeit der NÄCHSTEN Analyse liegt mit P=95% (entsprechend α=5% Irrtumswahrscheinlichkeit) innerhalb des Prognoseintervalls.
Var. 2: Toleranzintervall - enthält mit α=5% Irrtumswahrscheinlichkeit einen definierten Anteil (z.B. 90%) aller künftigen Werte die Richtigkeit von z.B. 90% DER KÜNFTIGEN ANALYSEN liegt mit P=95% (entsprechend α=5% Irrtumswahrscheinlichkeit) innerhalb des Toleranzintervalls.
Wegen der Entscheidung für das eine oder das andere Intervall wird auf die Risikobereitschaft des Unternehmens verwiesen.
Hintergrund: Toleranzintervalle sind breiter als Prognoseintervalle; sie ergeben die weiter reichende Aussage: nicht nur die nächste Analyse, sondern 90% aller künftigen Analysen haben die geforderte Richtigkeit. Mit der Verwendung von Toleranzintervallen werden die Anforderungen an die Analysenmethode erhöht. Die Methode muss also besser sein, um bei Bewertung gegen die gleichen Limits bestehen zu können die bessere Methode wird unter Routinebedingungen weniger methodenbedingte OOS-Ergebnisse liefern.
Seminarempfehlung
Neuss26./27. November 2024
GMP Compliance Trends in Analytical Laboratories
Schätzung der Nachweis-und Bestimmungsgrenze (LOD / LOQ)
In Kapitel 4 wird die in der ICH-Guideline angegebene statistische Vorabschätzung der messtechnischen Nachweisgrenze (LOD, limit of detection) auf Basis der beobachteten Streuung erläutert. Bei dieser Vorgehensweise bleiben Mängel der Richtigkeit (z.B. Verluste durch Absorption oder Zersetzung) völlig unberücksichtigt.Die genannte Vorgehensweise basiert auf der statistischen Definition der Nachweisgrenze aus der Streuung und akzeptablen Irrtumswahrscheinlichkeiten ("The basic approach to estimating LOD is based on an alternative definition adopted by the International Union of Pure and Applied Chemistry (IUPAC) and the International Organization for Standardization (ISO)."). Es wird angemerkt, dass es essentiell und doch kaum möglich ist, realistische Werte der Streuung am zu ermittelnden LOQ zu verwenden. Für die Praxis bedeutet dies: ausreichend viele Messungen matrixhaltiger Proben in dieser Konzentration.
Es werden - beginnend in der Dimension des Messsignals (und des Blindwerts) - statistisch abgeleitete Betrachtungen vorgestellt. Mit ihnen werden auf der Basis von Verteilungen und akzeptierten Irrtumswahrscheinlichkeiten zunächst das Signal für "Probe ohne Analyt" (Blindwert) und daraus abgeleitet ein kritischer Wert für das Messsignal RC einer Blindprobe ermittelt, wobei gelten soll: Die Wahrscheinlichkeit α, nichts (eine Blindprobe) für etwas zu halten (Fehlalarm, Fehler 1. Art), sei 5%. (Aus der Verteilung des Blindwerts (Erwartungswert B mit der Streuung σ) wird mit RC der obere Teil (Fläche α=5%) abgeschnitten.)
Die Nachweisgrenze soll dann die Konzentration sein, für die gilt: Die Wahrscheinlichkeit β, etwas (Konzentration am LOD, Messwert RD) für nichts zu halten (vorhandene Substanz wird nicht gesehen, Fehler 2. Art), sei 5%. (Aus der Verteilung des Messwerts (Erwartungswert RD mit der Streuung σ) wird mit RC der untere Teil (Fläche β z.B. 5%) abgeschnitten.)
Klassisch werden die so ermittelten Signale (Blindwert B, RC und RD) mithilfe der Kalibrierfunktion in Konzentrationen umgerechnet. Hier (USP<1210>) wird jedoch auch die Unsicherheit der Kalibrierfunktion und die Unsicherheit der die Breite der Verteilung bestimmenden Streuung berücksichtigt; dazu wird in einer Art "worstcase- Betrachtung" nicht mit der Regressionsgeraden (analog einem Mittelwert), sondern mit Intervallen (Prognoseintervall) gearbeitet.
Solche Intervalle liefern eine statistisch abgesicherte Strategie für Aussagen mit kontrollierter Irrtumswahrscheinlichkeit - hier für die aus der Streuung abgeleitete Schätzung der Nachweisgrenze (LOD).
Anschließend wird darauf hingewiesen, dass ein so (aus der Streuung) oder anders ermittelter "Kandidat für das LOD" (bzw. das LOQ) mit der Prüfung der Richtigkeit und Streuung unabhängiger Proben mit Analyt-Gehalten in dieser Konzentration zu überprüfen und zu bestätigen ist; dies ist die eigentliche Validierung des LOD bzw. des LOQ.
Ergänzend wird darauf hingewiesen, dass die zugrunde liegenden Voraussetzungen für solche statistischen Auswertungen gegeben sein müssen (z.B. Linearität und Varianzenhomogenität) - andernfalls die Irrtumswahrscheinlichkeiten der Schätzung von LOD / LOQ höher als kalkuliert sein werden. In solchen Fällen sollte die Hilfe einer statistisch adäquat trainierten Person herangezogen werden.
Abschließend wird betont, dass darauf zu achten ist, dass die Methode so leistungsfähig ist, dass ein so bestätigtes LOD bzw. LOQ dem vorgesehenen Verwendungszweck der Methode entspricht. Anmerkung: In vielen Fällen wird es nicht darum gehen, ein in der Praxis von Tag zu Tag schwankendes, am Tag der Validierung möglichst tief liegendes LOD oder LOQ zu ermitteln, sondern einen aus der Anwendung abgeleiteten unteren Rand des Arbeitsbereichs (z.B. nahe der Berichtsgrenze gemäß Impurity-Guideline ICH Q3 A/B) zu bestätigen.
Abschlussbemerkungen der USP <1210>
Es wird eindringlich empfohlen, die Performance der Analysenverfahren mit Hilfe geeigneter statistischer Prozeduren zu überwachen, um bei Veränderungen der Richtigkeit oder der Zufallsstreuung frühzeitig gewarnt zu werden; solche Veränderungen seien z.B. bei Verwendung abgenutzter Ausrüstung, veränderten Vorgehensweisen oder gealterten Reagenzien nicht ungewöhnlich.Datenbeispiel
In den Text der <1210> eingearbeitet ist ein Datenbeispiel, welches mit geeigneten Tools (z.B. Microsoft Excel®) nachvollzogen werden kann.Kommentar zur neuen USP <1210>
Die Auswertung ist ein der Laborarbeit (Herstellung der Prüf- und Vergleichslösungen und Durchführung der Messungen) gleichwertiger Teil jedes Prüfverfahrens (Analysenmethode). Jede Auswertung sollte sich nicht nur auf verlässliche Daten, sondern auch auf geeignete Modelle und Formeln ( Statistik) stützen, um die in den Messwerten enthaltenen Informationen vom immer vorhandenen Zufallseinfluss zu separieren und so aufzubereiten, dass Aussagen mit kontrollierter Irrtumswahrscheinlichkeit gemacht werden können. Dabei sind das oft Verallgemeinerungen, z.B. von einer Stichprobe auf die durch die Stichprobe repräsentierte Gesamtheit oder von einer Prüfung (z.B. der Analysenmethode) auf die Qualität zukünftiger Prüfungen (eines Produkts).Bei allem, was hier vorgeschlagen und diskutiert wird, ist zu beachten, dass keine Statistik schlechte Daten verbessern kann! Insbesondere ist daran zu denken, dass die Testlösungen das repräsentieren müssen, was gefragt ist. Beispiel: Aus matrixfreien Lösungen kann nur die Bestimmungsgrenze in matrixfreien Lösungen (also nicht in echten Proben) ermittelt und/oder bestätigt werden. Weiter ist daran zu denken, dass - abhängig von der Art der Herstellung der oft gespikten Testlösungen für die Methodenvalidierung - die Variabilität (auch: Zufallsstreuung) der Herstellung dieser Lösungen die eigentlich gefragte Variabilität überlagert und somit verändert; dies ist ganz besonders bei Versuchen, bei denen aus gespikten Lösungen die Variabilität der Analysenmethode ermittelt werden soll (z.B. Kombinationsversuche für Richtigkeit und Streuung) ein Problem, für das es in manchen Situationen keine gute Lösung gibt.
Hierzu bedarf es standardisierter, auch dem Normalanalytiker ohne Mathematikstudium zugänglicher Vorgehensweisen zur Auswertung der erzeugten Daten, die zu realistischen Aussagen führen - die neue USP-Monographie <1210> leistet einen Beitrag dazu.
Autor:
Dr. Thomas Trantow
… Analytik-Service Dr. T. Trantow, berät als Spezialist für GMP-Compliance von Excel-Anwendungen Pharmafirmen und erstellt und validiert spezielle Excel-Anwendungen (z.B. für Haltbarkeitsüberwachung/ Regelkarten/ Trendanalysen und für die weitverbreiteten Excel-Listen).