摘要: 目的 : 寻求合理的定量测定项目室间质量评价方案。 方法: 通过对国际上不同国家定量测定项目的室间质量评价方案的系统研究,并将国际上的定量室间质评方案与我国以前的质评方案进行了比较。结果: 通过比较,发现采用变异指数得分(VIS)、偏差指数(DI)存在着一定的缺陷。 结论: 通过对国外定量测定项目室间质评方案的研究,提出了新的室间质评方案,新的方案具有简单、直观和科学等优点,可在国内推广应用。
研究对象中各观察单位个体间的差异称为变异。对某项变异特征进行测量和观察,得到的指标称为变量(variable)。变量的测量和观察结果可以是定量的,也可以是定性的,或半定量的,通称观察值或变量值。按变量值的性质可分为不同类型,其统计分析方法也不相同。
数值变量(定量变量) 每一同性质观察单位所具有的变量值是定量的,表现为数值大小,有度量衡单位。每个观察单位的观察值之间有量的区别,而同一批观察单位必须是同质的。这种由定量因素(指标)组成的统计资料也称计量资料,它是一群单变量值、双变量值或多变量值。多数数值变量属连续变量。
不同类型的资料可采用不同的统计方法进行分析。定量资料常用平均数、标准差、t 检验、方差分析、相关与回归分析等;临床检验室间质量评价大多数试验项目为定量测定项目。
一、定量测定项目的室间质量评价结果的分布
当同一质控样本在不同实验室进行分析时,可获得可变化的值。由于测定的随机误差(所有测定过程的特征)可导致结果的差异。当用稳定的方法对质控标本检测得到足够的结果时,结果的分布接近正态分布(即是高斯分布)。一般来说,可假定控制样本的值是正态分布。结果的分布因此可用平均值和标准差来描述。当质控结果分布假定是正态分布,结果围绕平均值的分布可由标准差描述。这就意味着68.3%的结果落在 ±1s范围内,95.5%的结果在 ±2s范围内, 99.7%在 ±3s范围内。
图1. 正态分布或高斯分布及总观测值在标准差限之内的百分比
均数的应用:(1)均数用来描述一组变量值的平均水平,具有代表性,因此变量值必须是同质的。(2)均数适用于呈正态分布的资料,因为它位于分布的中心,最能反映分布的集中趋势。对于偏态分布资料,均数则不能很好地反映分布的集中趋势,可用几何均数、中位数等描述。(3)均数只能反映数据集中趋势,对服从正态分布的资料,应把均数与离散趋势指标标准差结合起来,可全面地反映其分布的特征。
标准差的应用:(1)表示变量值的离散程度。标准差越大,变量值分布越散,均数的代表性越差,即S越大, 代表性越小,反之亦然。但当资料的度量单位不同或均数相差较大时,两组资料的标准差不能直接相比。(2)结合均数描述正态分布特征。根据正态分布曲线下面积的规律,可以通过 ±S的倍数形式来概括描述变量值的分布,对这组资料的频数分布做出概括性的估计。(3)标准差还可以用来计算变异系数及结合样本含量计算标准误。
变异系数(coefficient of variation, 简记为CV),亦称离散系数(coefficient of dispersion)。是标准差与均数之比用百分数表示,计算公式为:
CV = S/ ×100%
全距、标准差与变量值的单位相同,而变异系数是相对比的,没有单位,更便于资料间的分析比较。常用于:(1)比较均数相差悬殊的几组资料的变异度,如相同度量衡单位指标的不同时间的纵向比较。(2)比较度量衡单位不同的多组资料的变异度,即做相同时间不同指标的横向比较。(3)变异系数还常用于比较多个样品重复测定的误差。
医学实验室在组织室间质量控制计划上具有很长的历史。1946年Belk 和Sunderman 首先调查了不同临床实验室的分析结果,发现有惊人的差异,并于1947年,将此调查结果发表在美国临床病理学杂志上(Am J Clin Pathol)。
医学实验的结果是用于病人的保健。因此,纯的分析结果(和测定的不确定度)并不能提供所有需要的信息;对于筛查和诊断目的试验,需要知道其参考范围或临界值(切值);对于用在监测的试验,其结果还必须考虑到个体内的生物变异。
二、室间质量保证的目标
大多数检测检验质量控制计划仅评价实验室的性能:操作者、分析方法、测定仪器和分析结果。
现代室间质量评价计划的目标是:
— 参加者的性能评价
— 方法性能的评价
— 产品的市场后预警
— 培训和帮助
根据其规定的目标,每一类型计划的设计将是不同的,并且要适合于所研究的目标(与EQAS有关的问题)。
三、医学实验室室间质量保证计划的思想
室间质量评价必须认为是全面质量管理概念中的质量管理的工具。
在西欧,只有德国的室间质量的结果是与检测实验的补偿机制有直接的联系。
室间质量评价的强制性特征迫使实验室试图做出最大的努力获得满意的结果。在许多情况下室间质量评价的样本进行了特殊的处理,获得的结果只能证明实验室
具有潜在的能力产生可接受的结果。
然而,好的结果并不能说明常规的质量(没有特殊处理)。
另一方面,差的结果给出了另一类的信息:
— 实验室存在问题
— 使用的方法存在问题
因而需要解决的关键的问题是:
1.“为什么会出现错误?”
2.“我们如何解决问题?”
3.“我们又如何防止出现相同的误差?”
四、室间质量保证的因素
(一)参加者性能评价
这种评价允许参加者可以确定其在相同条件下(相同系统,相同的分析原理)其结果所处的位置。
在美国实验室,许多室内质量控制策略是基于CLIA要求。凭经验,最大的允许室内质量控制限是1/3允许的CLIA限。由于CLIA限是用于补偿的目的,它们是强制性的,其基于当前分析技术水平,并且大多数实验室必须通过。
由于在法律上必须通过PT活动的结果,其整个质量的策略是基于这一事实。
在欧洲国家,没有这样的联系。因此,EQA界限也是基于临床策略和生物学变异。这样的途径提示使用者不仅要产生根据当前分析技术的统计上可接受的结果,而且还要产生临床上可接受的结果。
在这种类型的评价中,EQAS不仅可以评价分析结果的可接受性,而且也可以评价其临床结果的能力。在某些计划中,如挪威NOCLUS计划,给出了临床病例,并且需要临床实验室作出试验的正确选择。
在以后的室间质量评价计划中将包括试验结果的临床解释和诊断的建议的要求。
(二)方法性能评价和诊断产品市场后的警戒
由于实验室大多在专用的分析仪使用商品的试剂盒,在相同的用户组中它们应该获得可以比较的结果。相同使用者组的公议结果可以与其他方法获得的结果进行比较。
EQA可以给出如下有关的信息:
— 方法偏倚和方法的溯源性,
— 试剂和血清标准批间的变异性,
— 生产厂家推荐参考范围和临界值的有效性,
— 方法的稳健性。
(三)培训和帮助
EQA计划在实验室人员持续的教育中起到重要的作用。例如:
— 检查实验室所使用的参考区间和临界值;
— 实验室面对使用了干扰样本的方法学的局限性的挑战;
— 促进使用新的标准物质;
— 支持室内质量控制。
五、1999年以前我国临床化学室间质评方案: 变异指数得分(Variance Index Score, 简称VIS)方案
(1)首先确定靶值(T)
(2)计算每一实验室某一项试验结果的百分变异(%, 简称V)
V=|(X-T)|/T ×100
X为某实验室测定某一项试验结果
(3)计算变异指数得分(VIS):
VI=V/CCV ×100
VI超过400时, 令VI=VIS=400, VI≤400时, VIS=VI。
CCV为选定的变异系数, 不同项目的CCV值见表1。
全国质评活动中以VIS≤80为优秀,VIS≤150为及格, VIS>150为不及格。
表1 我国临床化学室间质评项目采用的CCV值
项目 |
CCV |
项目 |
CCV |
钾 |
2.9(3.5) |
胆固醇 |
7.6 |
钠 |
1.6 |
甘油三酯 |
10 |
氯 |
2.2 |
高密度脂蛋白胆固醇 |
10 |
钙 |
4.0 |
胆红素 |
12 |
磷 |
7.8 |
丙氨酸氨基转移酶 |
17.3 |
血糖 |
7.7 |
天门冬氨酸氨基转移酶 |
12.5 |
尿素 |
5.7 |
碱性磷酸酶 |
15.5 |
尿酸 |
7.7 |
淀粉酶 |
11.5 |
肌酐 |
8.9 |
肌酸激酶 |
18.5 |
总蛋白 |
3.9 |
乳酸脱氢酶 |
13.2 |
白蛋白 |
7.6 |
γ-谷氨酰基转移酶 |
15.7 |
表1中CCV值是在1984年烟台会议上确定使用世界卫生组织推荐使用的,也即是1979年英国当年室间质量评价实验室间最好的变异系数。在我国很多人将CCV视作允许误差,这是错误的。
六、1999年以前我国临床血液学室间质量评价方案
我国以前血液学室间质量评价方案采用的是世界卫生组织推荐的偏差指数(Deviation Index, 简称DI):
DI(Hb) = DI(WBC) =
DI(Plt) = DI(Ret) =
X为测定值, 为参考值。
DI≤0.5 优秀, DI> 0.5 ~1.0 良好
DI>1.0 ~ 2.0 及格 DI >2.0 ~ 3.0 不及格
DI > 3.0 问题严重
七、国外临床检验定量测定项目室间质评采用的评价限
目前国际上临床检验定量测定项目室间质评的评价限确定主要采用两种方式: 一种是基于生物变异,专家意见, “固定”的当前技术水平, 或这些观点的结合得出的“固定限”。另一种是采用每次调查结果的统计标准, 即是“可变的限”(实际技术水平限)(表2)。目前, 欧州21个国家的室间质评中有13个国家采用固定限。
表2. 欧州室间质评评价界限标准的确定
───────────────────────────────────────
国家 固定限 国家 可变限
───────────────────────────────────────
丹麦 3(1/2CVbi ) 意大利 P95
荷兰 3(1/2CVbi ) 西班牙 P95
比利时 生物学 法国 P95, P99
德国 3(CVwlab ) 葡萄牙 P95, P99
捷克 3(CVwlab ) 冰岛 Murex
卢森堡 3(CVwlab )
芬兰 专家, P95
挪威 同上
瑞士 临床医生、分析专家
克罗地亚 2(CVwlab )
爱尔兰 CCV
英国 CCV
───────────────────────────────────────
注: CVbi =个体内变异系数, CVwlab =室内变异系数, P95=第95%位数,
P99=第99%位数; CCV=选定变异系数
八、确定靶值的几种方式
1. 参考方法(参考方法均值)或已知(很小)偏差方法获得的平均值。
2.使用标本在制备过程中建立的值,例如:加入已知浓度分析物到血清中。
3.剔除离群值后,所有结果的总平均值。
4.具有良好性能的一组选择的“参考”实验室的平均值(参考实验室平均值)。
5.不同实验室使用同一方法,剔除离群值后,获得的所有结果的平均值。
6.上述方式的组合,使用可提供的信息达到单一靶值(见“公认值”)。在每一情况下,导出靶值的方法的清楚定义和验证是基本的,并要告诉参加者。
公议值(截断平均值)是排除了离群值后所有结果的平均值,离群值将使分布变形并影响平均数。在所有公议值和方法相关的公议值之中必须作出选择。在大多数情况下,优先使用方法相关的公议值(对酶活性检测特别重要),尽管对于某些分析物和方法在它们之间无显著性的差别(如血糖测定的葡萄糖氧化酶法和邻甲苯胺法)。然而,在方法相关和总公议值之间的一致性程度依赖于使用的方法和质控物的类型。
计算方法相关公议值的一般方法如下:
(1)按分析项目和分析方法组织数据;最好组中的结果个数大于20,避免出现组中的结果个数小于10;
(2)对于小规模的计划,严格检查数据并剔除有明显错误的结果;
(3)计算每一组的平均数和标准差;
(4)剔除超过±3s外的任何结果(如果结果个数小于20,则使用±2s);
(5)重新计算余下数据的平均数和标准差;
(6)重复第(4)和(5)步骤直到所有的结果均落在第(4)步确定的范围之内;
(7)最后一组的平均数(即是无离群值)是方法相关的公议值。
九、国际上室间质量评价标本发送频率和周期
不同国家的室间质量评价差别较大,每次发放的标本个数及每年组织活动次数也不相同。见表3。
表3. EQA计划,发送标本的频率和时间
标本发送的频率 周期 |
优点 问题 |
1.快速检测
每季度 <14天
>30天
每月 <14天
>30天
每两周 <14天
2. 漫长的检测
每年一次, 尽可能快
要求每周或每月
检测 |
较低的管理负荷 对实验室效益少
容易获取标本
周期太长
经常提供信息 增加成本
周期太长
提供更快的信息 高成本
管理
标本的获取
低的发送和包装 标本的贮存
成本 标本的获取 |
注: 每次发送的标本从1个到5个或更多。
例如:澳大利亚室间质量评价计划,每两周一次,每次2个不同浓度的质控品。英国和芬兰Labquality 每个月一次,每次一个或两个质控品。美国每年三次,每次3 – 5个不同浓度质控品。
十、与室间质量评价相关的标准
根据中华人民共和国国家标准GB/T 15483.1 — 1999利用实验室间比对的能力验证 第1 部分:能力验证计划的建立和运作(Proficiency testing by interlaboratory comparisons Part 1: Development and operation of proficiency testing schemes)。进行实验室间比对有目的(等同采用国际标准化组织(ISO)导则43)。
实验室间比对可用于:
a)确定某个实验室进行某些特定检测或测量的能力,以及监控实验室的持续能力; b)识别实验室中的问题并制定相应的补救措施,这些措施可能涉及诸如个别人员的行为或仪器的校准等; c)确定新的检测和测量方法的有效性和可比性,并对这些方法进行相应的监控; d)增加实验室用户的信心; e)识别实验室间的差异; f)确定某种方法的性能特征 — 通常称为协作试验; g)为标准物质(RMs)赋值,并评估他们在特定检测和测量程序中使用的适当性。
能力验证是为了实现目的a)而进行的实验室间比对,即确定实验室的检测或测量能力。但能力验证计划的运作也常为上面所列的其他目的提供信息。
参加能力验证计划为实验室提供一个评估和证明其出具数据可靠性的客观手段。虽然能力验证计划有多种类型,但大部分都具有对两个或多个实验室的检测和测量结果进行比对的共同特点。
能力验证计划的主要用途之一是评价实验室胜任地进行检测的能力。这可以包括由实验室自身、实验室客户、诸如认可或法定机构等其他机构进行的评估。它是提供实验室检测能力的外部措施来补充实验室的内部质量控制程序的方法。
实验室间比对指的是按照预先规定的条件,由两个或多个实验室对相同或类似检测物品进行检测的组织、实施和评价。
能力验证的结果会以多种形式出现,并涵盖了很宽范围的数据类型,是统计分布的基础。用以分析结果的统计技术应适用于每种情况,但由于其种类太多而无法给出规定。
然而,在评价参加实验室的结果时,对于所有的能力验证,有三个步骤是共同的: a)靶值的确定; b)能力统计量的计算; c)能力评价; 在某些情况下还有: d)检测物品的均匀性和稳定性的初步确定。 本附录给出了所用统计技术的一般准则,籍此按要求指导具体的应用。 由于新的问题、新的形式、人造检验物品、一致性差的方法或多变的实验室程序等原因,与新的实验室间比对计划的一致性最初往往很差。在一致性得到改善之前,协调者也许要使用相对能力(例如百分比)的稳健度量。当实验室间的一致性得到改善并很好地建立了能力验证计划时,统计技术可能还需要改进。
(一) 确定靶值及其不确定度
1.1 靶值的建立有各种程序,以下按次序列出一些最常用的程序。在大多数情况下,该次序表明靶值的不确定度在逐渐增加。这些程序分别使用下列各值:
a)已知值 — 由专门的检测物品配方(例如用制造或稀释)决定的结果。
b)有证参考值 — 由定义法确定(用于定量检测)。
c)参考值 — 与一个可溯源到一个国家或国际标准的标准物质或标准并行进行分析、测量或比对检测物品所确定的值。
d)从专家实验室得到公议值 — 专家实验室利用已知的具有高精密度和高准确度的、并可与通常使用的方法相比较的有效方法,确定试验中的被测量时,应具有可证明的能力。在某些情况下,这些实验室可以是参考实验室。
e)从参加实验室得到公议值 — 利用1.3中所述的统计量,同时考虑到极端结果的影响。
1.2 为了公正地评价参加实验室,以及促进实验室间和检测方法间的一致性,应当确定靶值。可以通过选择共同的比对小组。只要可能,还可以利用共同的靶值来实现。 1.3 用公议技术确定靶值时,采用下述统计量可能是合适的:
a)定性值 — 一个预定的多数百分比的公议值(经常表示在标称或次序刻度尺上);
b)定量值 — 对适当比对组的“平均”,诸如:
i)可以是加权或变换(例如,修剪平均或几何平均)的平均值;
ii)中位值、众数或其他稳健度量。
1.4 只要可能,应采用“测量不确定度表示指南”中所述的程序去确定靶值的不确定度。 1.5 极端结果处理方法如下:
a)当参加者的结果被用于确定靶值时,所用的技术应当使极端结果的影响减至最小。这可以用稳健统计法或在计算之前剔除离群值来实现(见ISO5725-2)。在规模较大或日常的计划中,或许可以对离群值进行自动扫描。
b) 若结果作为离群值被剔除,那么剔除仅仅是为了计算总统计量。在能力验证计划中对这些结果也应当进行评价,并且给出适当的能力比率。 1.6 其他的考虑如下: a)按理想情况,如果用标准公议值或参加者公议值来确定靶值,那么协调者应当有一个程序来确定靶值的真实度和检查数据的分布。 b)协调者应有按不确定度接受一个靶值的准则。 (二)能力统计量的计算 2.1 检测单项检测物品的能力 2.1.1 能力验证的结果经常需要转换为一个能力统计量,以便于说明并与规定的目标进行比对。其任务是以与能力准则作比对的方式,测量与靶值的偏差。使用的技术可以涉及从无处理要求到复杂的统计变换。 2.1.2 能力度量对计划的参加者应有意义。因此,度量应与检测的应用需要相关并易于理解,或在一个特定的领域内符合传统惯例。 2.1.3 变动性度量经常用于计算能力统计量及能力验证计划的总结报告中。对一个适当的比对组,变动性度量的常用例子包括: a)标准差(SD); b)变异系数(CV)或相对标准差(RSD); c)百分位,中位绝对偏差或其他稳健度量。 2.1.4 定量结果常用的统计量,按参加者结果变换程度增加的次序列出如下: a)差(x – X), 在此“x”是参加者的结果,“X”是靶值; b)百分比差(偏倚) (x - X)/ X ×100% c)百分位或等级; d)z比分数,在此 z = (x – X)/ s
s 是满足计划要求的变动性的合适估计值/度量。该模式可用于X和s由参加者推导出的情况,或不是从(所有)参加者结果推导出的情况。
2.1.5 考虑如下:
a)参加实验室的结果与靶值之间的简单差值可能适用于确定能力,并易于参加者理解。量(x-X)在ISO5725-4中被称为“实验室偏移的估计值”; b)百分比差适用于浓度; c)百分比或等级用于高度分散或偏态分布的结果和次序响应,或用于有限数目的不同响应。 d)根据检测的性质优先或必须使用变换的结果。例如,以稀释位基础的结果是几何刻度尺的一种形式,可用对数进行变换; e)如果利用统计准则(例如z比分数),那么变动性的估计值应是可靠的,即根据足够多的观察降低极端结果的影响,并达到低的不确定度。 2.2 综合能力比分数
2.2.1 在单一能力验证轮回中,根据一个以上的结果就可以评价实验室的能力。这种情况出现在对一个特定的被测量对象,或一组有关的被测量对象有一个以上的检测物品时。这样就可以对实验室的能力提出一个更为全面的评价。
例如如下:
a)对相同被测量的合成比分数;
—满意结果的数目;
—总计z比分数的平均;
—平均绝对差(用单位或百分比表示)
—总计绝对差(或平方差)。
b)对不同被测量的合成比分数:
—满意结果的数目(或百分比);
—平均绝对z比分数;
—相对于评价限的平均绝对差。
2.2.2 考虑如下:
a)比分数可以变换(如有必要),以便它们全都服从相同的假设分布(例如对z比分数的高斯分布或对平方差的χ2
分布);
b)应对极端值进行检查,它们可能严重影响一个定量的合成比分数;
(三)能力评价
3.1 初始能力
应在考虑能力度量是否包含某些特点之后,建立评价能力的准则。
3.1.1 这些特点如下:
a) 专家公议:由顾问组或其他有资格的专家直接确定报告结果是否与目标相一致。专家公议是评估定性检测结果的典型方式;
b)与目标的一致性;例如,考虑方法的实施规范和参加者的操作水平; c)对比分数的统计确定:准则应适合于每一个比分数。应用比分数的一般性例子有:
| z | ≤2 = 满意
2 < |z|<3 = 有问题
|z| ≥3 = 不满意
d)参加者的公议:从一定比率的参加者使用的百分数或结果的范围,或一个参考组得到,诸如: — 满意的中心百分率(80%,90%或95%); — 满意的单侧百分比率(最低90%)。 3.1.2 只要可能,应采用图表来显示能力(例如直方图、误差条形图、z比分数次序图)。这些图表可用于表明:
a)参加值的分布;
b)多个检测物品的结果间的关系;
c)不同分析方法的比对分布。
3.2 监控整个时间的能力 3.2.1 一个能力验证计划可以包含监测整个时间的能力的技术。这项统计技术可以使参加者发现其能力的变动性;是否存在整体倾向性或不一致性,以及其能力在什么地方发生了随机性变化。 3.2.2 图表法能够便于更多读者理解。传统的常规控制图表(Shewhart)很有用,尤其对于自我改进的目的。数据列表和总计统计量提供了更详细的复查。用于评价能力的统计量可用于这些图和表。
|