此前,“袁来如此”专栏就LBA定量方法的监管验证展开了第一、二期的详细介绍,本期将延续前两期的内容,继续分享后续相关内容。
1.精密度和准确度
在方法开发之前或期间,应确定最低可接受的准确度和精密度,并在该分析方法的生命周期内使用,同时应用适当的统计方法计算运行内和运行间的精密度(precision)和方法准确度(平均偏差mean bias)。表 VII A 中提供了适用于方法开发和研究前验证数据计算的示例,表 VII B提供了相关公式。
表 VII A . 准确度和精密度的示例。重复多孔分析的结果来自一个蛋白药物的免疫分析数据。在Excel电子表格中,使用方差分析(ANOVA)计算了相关统计结果。所有数据的符号表示法在表VII B中列出。
表 VII B.表VII A.中数字示例的符号表示法
运行内精密度:从计算的运行平均值,估算测定浓度值的混合运行内标准方差(SW)。总随机误差,通常称为运行间精密度(或中间精密度intermediate precision),从所有运行的累积平均值,估算所有测定的浓度值的标准方差()。如出现后一个标准方差稍微低估了真正的运行间的非精密度(imprecision),使用方差分析(ANOVA),则能够计算更准确的数值 (SIP)(见表VII A)。
方法的准确度(表示为%RE)由加权样品平均值(weighted sample mean)与样品标称参考值μT(sample nominal reference value, 50ng/mL in表VII A)的百分比偏差(percent deviation)确定。当所有分析运行的重复孔数相同时,加权平均值(weighted mean)和样品总体平均值( sample overall mean)相等,将标准方差除以样品标称值,即得出精密度,以%CV作单位记录。
在某些应用场景中,例如当基质中存在内源性化合物且无法剔除时,则没有标称值可用;因此,必须用计算出的样本平均值替换%CV计算中的标称值。在这种情况下,在验证之前,还必须科学合理地计算回收率,并将其用于评估准确度。
在方法开发的早期,可以计算校准品的%CV和平均RE,预测该分析方法可能达到的精密度和准确性的最佳值。
要得到预期分析性能更可靠的评估,可以独立制备额外的加标对照样本组,并至少进行3次分析运行。所制备的样品的浓度应包括校准品的整个范围(例如,6至9个浓度点),对每次运行中的每个浓度点,至少进行复孔(duplicate)测定。由内插计算得出的样品浓度,将反映来自校准品的变异性、来自样品制备和位置等其他因素的变异性。表VI中所建议的每个浓度的累积 %CV和绝对平均RE(平均偏差mean bias)的目标限度为20%(LLOQ为25%),这与研究前验证评估时的精密度和准确性的目标限度相同。
在研究前验证期间,可通过分析验证样品确认方法精密度和准确性。在预期未知样本的基质中,制备5个或更多浓度的验证样品如下:预期的定量下限(LLOQ)、小于LLOQ的1/3的浓度、中浓度、高浓度和预期的定量上限(ULOQ),建议再进行最少6次分析,对每次运行的每个样本至少进行2次独立分析(复孔)。对于每个验证样品,应使用适当的统计方法一起分析所有运行的复孔测定值(请参阅表VII)。
如认为方法可以接受,建议运行间精密度(%CV)和绝对平均偏差(%RE)均须 ≤20%(LLOQ 为25%)。此外,建议将方法总误差(%CV和绝对%RE的总和)定为≤30%(LLOQ为40%),以符合研究中验证的接受标准。
每个研究中运行的精密度和准确性是通过评估QC样品的分析结果来监控的。对于色谱类和LBA方法都采用同样的运行接受标准:每个运行至少需要2/3的QC达到对应的标称参考值的特定百分比(例如15%、20%、25%或 30%);至少50%QC样品的分析结果在指定的限度范围内。对于传统小分子药物的定量分析,一般采用4-6-15规则,相比之下,在2000年3月的AAPS研讨会上,建议对大分子的LBA制定4-6-30规则,本文建议采用4-6-30 规则。
建议采用研究前验证部分中描述的精密度和准确度的接受标准,因其计算简单,并与上述研究中的4-6-30 规则相当一致。根据定义,4-6-30 的接受标准仅基于单个定量结果与其标称值的偏差,而不是基于计算的平均值或标准方差,由于分析结果与标称值的偏差包括随机误差和系统误差,因此它是一个总误差的度量(图4)。
图4. 定量分析结果总误差(z)的说明。总误差定义为分析结果与其标称“真实”值 (μT)的偏差(deviation)。一般假定均匀样品的重复测定结果的误差服从钟形的正态分布。为便于比较,误差通常表示为百分比相对误差 (参见图中刻度);计算方法是将偏差除以标称值,再乘以100。总误差等于系统误差的总和(systematic component,由计算出的分析平均值与标称值的偏差来估计),再加上随机误差(random component,由一个分析结果与分析平均值的偏差来估计)。
附加的研究前验证的限制条件,即%CV和绝对%RE的总和≤30%,以防止接受具有高度不精密(imprecision)和高度偏差(bias)的分析结果(例如接近20%)。这样的分析方法往往不能通过4-6-30标准。其它确保研究前和研究中接受标准之间的一致性的统计方法亦可接受。
对于免疫测试和其它LBA方法,其定量范围应基于最低(LLOQ)和最高(ULOQ),满足目标精密度和准确度标准的验证样品,而不是校准品的性能。
用于定义定量范围的验证样品是在未稀释的样本基质中制备的。在分析之前,它们可能需要进行最低限度的稀释(minimal required dilution,MRD)。在需要使用 MRD 的情况下,可以将定量范围定义为纯粹基质中的标准浓度值,或者定义为应用 MRD 后获得的标准浓度值范围。例如在纯粹基质中,10至100 ng/mL 的校准曲线等效于应用倍数为10的MRD(即10%基质)之后,1到10 ng/mL的校准曲线范围。
在方法开发早期,可以使用回算的标准品浓度值初步估计定量范围。稍后,则使用加标样品来优化之前估计的定量范围。在此阶段,在预期的LLOQ和ULOQ浓度附近分析更多浓度点是有益的。精度剖面图有助于评估定量范围的预期极限(图5)。
应根据外加待测物的验证样品(spiked validation sample)分析结果的精密度和准确性来建立该分析方法的定量范围。标准曲线应包括跨越预期的LLOQ和ULOQ的浓度。LLOQ 和 ULOQ 由最低和最高的验证样本决定,其精密度(运行间%CV)和准确度(绝对%RE)均≤20%(LLOQ为25%),两者的总和≤30%。
在研究前验证时,确定的定量范围是在必要时,样本稀释后必须达到的范围。对高于ULOQ的样本,必须增加稀释的倍数后重新分析。如果样本已达到最低稀释要求,且低于最低定量限,则必须报告为<LLOQ。在样本分析期间,如果对标准曲线的必要编辑导致没有标准品达到或低于经过验证的LLOQ,则必须提升LLOQ。在这种情况下,需要将LLOQ上调到其余标准品中的最低浓度。
在研究前的验证中,必须证明待测物在样本基质中的稳定性。稳定性试验应尽可能模拟研究样本的收集、储存和处理的条件。通常是将待测物添加到全血(whole blood)以及经过处理全血得到的基质,如通过血浆(plasma)和/或血清(serum)进行评估的。对制备和储存条件的评估,通常包括工作台稳定性(bench-top stability)、短期和长期稳定性以及多个冻融循环的稳定性。在确定操作条件时,应考虑分析物的理化性质,还必须建立待测物的初级标准溶液在相关存储条件下的稳定性。
稳定性样品必须与在与采集到的研究样本相同的基质中制备。如果使用剥离或改变了的基质制备研究前校准样品和QC样品,则仍必须在未改变的基质中制备稳定性样品。在分析方法开发过程中,制备稳定性样品对研究前验证期间的中、长期稳定性数据的收集有极大的积极作用。因此,在合适的实验室中尽早制备稳定性样品并保存相关文档记录,可以为建立待测物的长期稳定性提供一个良好的开端。稳定性评估可在方法开发过程中的样本处理阶段进行,包括但不限于对基质稳定性的评估:如室温、冻融循环等,以确定在分析方法的整个生命周期中如何处理样品。
正式的稳定性评估必须在研究前验证中使用已建立的分析方法进行。制备稳定性样品时,必须将待测物加入到与研究样本相同的基质中,以产生高/低浓度的稳定性样品,这些浓度可以与高/低QC浓度相同。建议使用与QC样品相同的重复孔数来分析稳定性样品。
评估工作台稳定性时,要求处理样品的方法与样本收集(研究)和分析现场的处理方法相同,并且应在室温(至少2小时)和冰箱温度(2°至8°C)(至少24小时)下进行。研究人员可将分析物加入新鲜采集的全血来评估其全血稳定性。
以评估全血待测物稳定性为例,全血样品中加入分析物,孵育2小时,每隔一段时间进行样本处理以获得血浆或血清;之后,监测处理后样品的回收率的趋势来评估其稳定性。
对于冻融稳定性评价,应考虑在常规分析中预期的冻融循环次数。标准的方法是3次冻融循环,每次解冻间隔不少于12小时。冻结和解冻的速度和冷冻储存的温度应该模拟样品在分析前解冻时的处理方式。评估长期的稳定性必须考虑到样本在研究现场和测试设施的储存。在研究的整个生命周期中,包括研究样本的分析完成之后,样本都必须是稳定的。测试的时间间隔则取决于研究的需要,对于非常长期的研究,测试频次以比样本分析更密集,以确保可以分批次分析样本,直到整个研究结束。
对于保存在-20°C和-70至-80°C样品是否需要进行稳定性进行研究,可能取决于样本在-20°C保存的时间。如果在-20°C冷冻样本,在-80°C储存,那么稳定性样品应该以同样的方式制备,在-20°C保存的时间可以建模,以预测其稳定性。
新鲜制备的标准校准曲线和QC样品(无论是在可接受的失效期内或新鲜制备的),可以作为稳定样品的比较标准。除了全血稳定性外,稳定性的接受标准与用于QC样品准确度和精密度的接受标准相同。如果稳定性样本的测定值在精密度的接受标准之内,那么样本就被认为是稳定的,即便观察到稳定性变化的某种趋势,可以采用其他评估方法,如使用置信区间。在这种情况下,当观测到的稳定性样品的浓度或响应超出了置信区间的低端,则该样本不再有效。
通常在研究中验证期间,会继续进行稳定性评估。如果研究样品的处理和储存条件发生变化,则必须进行额外的稳定性评估,以反映新的条件对稳定性的可能影响。如果无意中将样品储存在不同的温度下,则应该在样品分析之前进行该温度下的稳定性研究,以确认稳定性,并通过更新方法验证报告的形式进行书面体现。当一个时间点的稳定性数据表明样本失稳时,只要有一个预先建立的、确认稳定性趋势的方案, 则仍然可以在直到样品失稳的时间点以内的时间段进行样品分析;如果下一个稳定性时间点的样本分析,否决了之前的样本稳定性趋势, 则可以延长样本的稳定性区间。
由于许多免疫测试方法性质或格式中的标准曲线定量范围(LLOQ到ULOQ)可能很窄,有时甚至<1个数量级。因此,有必要证明,当待测物的浓度超出定量范围(高于ULOQ)时,可以稀释样本,使待测物的浓度进入经验证的定量范围。进行稀释实验的另一个原因是为了识别可能存在的“prozone”或“钩状效应”(参见图6所示,即由高浓度待测物引起的信号抑制)。
稀释线性(dilutional linearity)不应与平行性(parallelism)相混淆。平行性必须使用incurred sample,即已测样本再分析的真实样本,进行评估,而稀释线性可以使用外加待测物的QC样品进行评估。如果在研究前的验证中显示出稀释线性,那么在研究中验证时就不需要使用系列稀释的QC样品了。
图6.钩状(Prozone)效应的演示。两个结合点EIA的典型S形浓度-响应曲线(●),包括高浓度钩状效应。具体来说,高浓度的待测物产生了低于预期的响应。如果没有钩状效应,如开环(○)所示,较高的待测物浓度将产生 > ULOQ响应;如果没有钩状效应,曲线的量化范围在LLOQ和ULOQ之间。LLOQ和ULOQ之外的锚定点仅用于曲线拟合。
稀释线性应在外加待测物到样本基质中和随后稀释而制备的样品上进行评估。该基质可以是单个样本或单个样本的混合物。选择混合样本和单个样本取决于来自基质的物质,如嗜异性抗体(heterophilic antibody)或结合蛋白(binding protein)。稀释倍数应使若干个稀释后的浓度落在标准曲线的定量范围内。
在评估稀释线性时,应采用比ULOQ大100至1000倍浓度的加标样品;如果不可行时,应努力使其浓度尽可能地高。制备的稀释样品应包括ULOQ以上的浓度(用于评估钩状效应),以及校准曲线的高、中、低浓度(用于评估稀释线性)。通常情况下,单次稀释的倍数不超过1:100。
当稀释线性度不足时,必须建立合适的分析高浓度样本的策略。在报告测定结果之前,使用MRD或一个平台值(plateau value)可以满足这种需求。当无法实现稀释线性时,也必须建立数据报告的策略,例如在校准曲线的定量范围内采用最大的稀释倍数。
在方法开发时建立的稀释方案应在研究前验证中加以确认,需要回算每个单次稀释后的浓度,并计算经过所有稀释次数的最终浓度的累积精密度。每个稀释后样本的回算浓度应在标称值(nominal value)或期望值(expected value)的20%以内,累积回算浓度的精密度也应当≤20%。理论上,所制备1000倍于ULOQ的稀释线性样本应当得到一个大于ULOQ的回算值,但如果回算值在定量范围内,则可能存在钩状效应(图6)。
研究前的验证过程通常会覆盖研究样本的全部稀释范围。当研究样本需要稀释的浓度超过研究前评估的浓度时,应重复稀释线性度研究,以涵盖该浓度。另一种方法是可以包括一个稀释QC样品,以确认稀释后可以准确地测定其浓度。
平行性是分析方法的一个性能特征,通常在研究中验证期间进行评估。它在概念上类似于稀释线性,但使用实际研究样本或研究中产生的代表相同基质和待测物(待测物)组合样本时,可对多次稀释进行评估。
通常不会在方法开发的过程中评估平行性,而是将稀释线性度用作平行性第一阶段的评估。
在临床前研究中验证分析方法时,有时可以从暴露于高剂量待测物的动物试点研究中获得样本。这种类型的样本可以在研究前验证中评估平行性。此外,当验证一个分析方法替代另一个方法时,并且能获得含有相同药物(药物活性成分)的研究样本时,也可以在研究前验证期间评估平行性。
可以使用一个研究中的血药峰浓度(Cmax)样本来评估平行性,常用的方法之一是将几个Cmax样本混合,以生成一个平行性验证样品。评估混合样本的平行性可以避免使用单个研究样本而产生的多个数值。可以接受的不平行性取决于分析方法的预期应用。作为一个目标,建议稀释的系列样品之间的相对标准偏差(%CV)≤30%,同时对样品稀释结果非线性(即非平行性)情况预先设定报告结果的程序。
稳健性/耐用性的关键是解决在标准实验室条件下和在实际生活变化的情况下该分析方法是否有效的问题。虽然对于如何确定稳健性和耐用性之间的绝对差异可能存在相当大的争议,但这两个参数都是在不同条件下该分析方法重现性的指标。而它们被分开描述,只是为了更清晰地定义,如何在分析开发和验证生命周期的不同阶段对其进行评估。
方法的稳健性取决于在实施了可能影响分析方法的变化时,其效能(performance)的一致性(consistency)。因此,必须重视、测试和记录这些变化。对一个分析方法有影响的变化必须在方法程序或方法SOP中明确记载,可能影响免疫分析方法的一致性的因素包括:孵育温度、光暴露(ELISA)和基质的选择(血浆、血清、脑脊液)。
一个分析方法的耐用性(ruggedness)是在实施日常变化而导致不同操作条件的情况下该方法的一致性。分析人员的变化、不同仪器的使用、运行的大小(batch/run size)、日期、时间或其他环境因素的变化对分析方法一致性或耐用性的影响较小。
在方法开发期间, 评估的运行变量包括但不限于:孵育时间(分析方法的所有步骤)、孵育温度(所有步骤)、不同的分析人员和用来进行分析的仪器(移液器、移液工作站、清洗仪、读板机等)。在研究前验证中,有可能重新评估这些变量的一部分,但重要的是确保在分析方法最终确定之前对它们进行评估,以便设置这些参数的限制范围,并进行方法验证。
在研究前评估方法的稳健性和耐用性时,应尝试评估在研究阶段可能影响分析方法的执行和效能的各种条件。
在研究结束时,对QC持续监测的结果以及对运行内/运行间的精密度的评估,可以提供在不同条件下该分析方法的稳健性和耐用性的信息。例如,应允许孵育时间有15%的变化(2h ± 15 min),以适应在常规样本分析时此类情况发生的状况。
方法验证一般可以分为三大类:全面验证、部分验证和交叉验证。对本文所述的任何新方法都要进行全面验证,这个过程涉及方法开发、研究前验证和研究中验证。在动物物种(例如从大鼠到小鼠)和物种内的基质发生变化(例如从大鼠血清到大鼠尿液)时,需要对分析方法进行全面验证。
当方法变更较小时,可以进行部分验证;这其中包括方法转移、抗凝剂的改变(如EDTA、肝素钠、柠檬酸)、方法的变化(特别是关键试剂如主要抗体或次要抗体)、样品处理过程的变化(如,血液离心转速,收集容器,储存条件)、样品体积、浓度范围的增加、选择性问题(同时用药)、分析人员资格的认证等。部分验证的范围可以很宽,从运行内准确度和精密度的单一评估,到近乎全面验证。更改试剂批次或样品处理方法可能只需要一次运行。相比之下,分析方法转移可能需要大量的实验。
方法转移是在一个实验室(方法发出实验室sending laboratory)建立一个分析方法并转移到另一个实验室(方法接收实验室receiving laboratory),并且至少需要部分验证的情况。
除了所需的记录文件(例如方法描述、验证报告、分析证书/certificate of analysis)外,方法发出实验室还应提供影响耐用性因素的相关信息(例如,关键试剂和物料)。需要制定计划或方案来确定方法转移流程(例如,要进行的实验)和接受标准。
一旦方法转移通过验证,一个理想的做法是让方法发出实验室和接收实验室分析30个覆盖标准曲线范围的加标盲样以及30个混合的、用于已测样品再分析的样品,并使用统计等效测试对两组数据进行比较。或亦可以使用商定的可接受范围比较两组数据之间的差异。
当在同一研究或申报材料中的数据是通过两种验证过的生物分析方法得到时,需要进行交叉验证。例如两种验证过的生物分析方法是ELISA和BiaCore,或者是ELISA和液相色谱/质谱,建议使用测试样品(test sample,加标样品和/或混合的已测样本再分析样品)进行交叉验证。
在方法开发过程中,不应设定明确的运行接受标准。对标准曲线性能的早期评估可用于判断所选试剂和分析格式的适用性。
研究前验证中,应根据标准曲线的接受标准而决定是否接受一个验证运行。对研究前验证样本则不设接受标准。例如,在准确度和精密度评估期间,不能因为验证样本的性能不佳而拒绝一个分析运行;需要报告所有来自研究前验证运行的数据。在某些情况下,在计算累积平均值之前,可能会有因为可以确定的原因(例如,技术问题)而剔除某些验证样本的数据点;但这应该在整个验证研究结束时进行,并且必须按照文档记录的要求记录。
对于每个研究中验证运行,标准曲线必须满足相关接受标准。对于大分子LBA方法,所建议的运行接受标准(见有关准确度和精密度的章节)要求:至少6个QC结果中有4个(67%)必须在其标称值的30%以内,每个QC浓度级别至少有50%的数值满足30%的限度。本文所推荐的4-6-30规则同时对所允许的随机错误(不精确度imprecision)和系统误差(平均偏差mean bias)实施了限制。如果一个分析方法要求QC最终接受标准不同于30%的标称值偏差,则应调整对于精密度和准确度的研究前验证的接受标准,使运行间不精确度和绝对平均值RE之和的限度值等于修改后的QC的接受限度值。
LBA分析方法的主要用途是支持生物药在各个研发阶段的药代动力学研究。如果早期充分地定义LBA定量分析方法的每个组成部分,就应当能够生成简洁的验证计划和简单明了的验证过程。
如本文所述,一个典型的方法验证包括至少6次精密度和准确度的分析,以证明方法效能的一致性(consistency)。在这些分析运行中,可以确定其它一些参数,包括早期的稳定性、特异性、选择性和定量范围。标准曲线需要至少含有6个非零点的浓度,并需要评估其准确度和精密度。除了真实的记录在案的分析人员的错误外,不应该剔除任何分析运行及其数据。验证样本定义了该方法的定量范围,低于LLOQ或高于ULOQ的数值无需报告。在6次验证试验中,验证样本用来确定多次运行的累积精密度和准确度。在验证期间,不应该剔除任何验证样本,以展示该方法的真实效能。
在样本分析过程中,方法验证的生命周期仍在继续。在接受QC样品的分析结果之前,首先根据预设的接受标准,确定标准曲线是否通过。只有当标准曲线通过后,才可以评估QC样品是否可接受;之后,再根据QC的定量结果确定该分析运行是否有效。QC的接受标准可基于4-6-×规则或总误差,并且可以基于方法开发和研究前验证阶段所使用的标准来预测。总而言之,LBA定量分析方法是一种高灵敏度的定量方法(常规可取得pg/mL级的灵敏度),可用于生物基质中的蛋白质和多肽生物药的定量分析。
本文如有疏漏和误读相关指南和数据的地方,请读者评论和指正。所有引用的原始信息和资料均来自已经发表学术期刊, 官方网络报道, 等公开渠道, 不涉及任何保密信息。参考文献的选择考虑到多样化但也不可能完备。欢迎读者提供有价值的文献及其评估。