倾向性评分方法是通过综合系列已知的可测量的协变量来模拟随机对照试验的随机化、提高组间的均衡性,进而降低混杂因素影响的一种分析策略。倾向性评分方法在观察性研究中应用越来越广泛。本文介绍了倾向性评分方法的原理、类型及其在观察性研究中的应用,同时对倾向性评分方法与多元回归、临床试验的结果进行了比较分析。当前对倾向性评分方法的选择尚缺乏有效推荐,倾向性评分方法得到的结论与传统的回归分析、随机对照试验的结果也可能存在差异。
干预性措施的随机对照试验(randomized controlled trial,RCT)产生的高质量证据在当前的循证医学体系里往往被认为“金标准”。RCT 研究采用随机分组的方法,能够把非干预因素平衡分配到干预组与对照组,使基线组间均衡可比,最大限度地控制混杂因素对结果的影响[1]。但并非所有的研究问题都可以采用 RCT 设计,所以观察性研究(observational study,OS)往往能提供不可或缺的证据。然而观察性研究容易受到混杂因素的影响,使得暴露因素与结局的真实关联容易被夸大或缩小,从而导致错误的结论[2]。如图 1 所示,假如群体中有三分之一(4/12)的参与者的某些特征是某不良结局的危险因素,由于缺乏随机化的过程,此危险因素在暴露组(1/6)与非暴露组(3/6)之间的分配并不均衡,间接导致了非暴露组更容易观察到不良结局的发生,从而使得暴露与结局的真实关联被错误地夸大了。因此如何控制混杂因素、降低或消除混杂因素对关联的影响,是观察性研究须谨慎考虑的方法学问题。

近年来,倾向性评分(propensity score,PS)方法越来越多地运用到观察性研究中。PS 方法 20 世纪 80 年代由 Rosenbaum 和 Rubin 首次提出,后由 Austin 等大力推广[3,4]。PS 方法是通过综合系列已知的可测量的协变量(measured covariates)来模拟 RCT 的随机化、提高组间的均衡性,进而达到降低混杂因素影响目的一种分析策略。本文介绍了 PS 方法的原理、类型及其在观察性研究中的应用,同时对 PS 方法与多元回归、RCT 的结果进行了比较分析。
1 PS 方法的原理、类型及应用
1.1 基本概念
相对于观察性研究设计阶段的策略(如确定纳排标准、实行分层或匹配的措施等),PS 方法是属于在数据分析阶段采取的一种措施,目的是通过模拟 RCT 的随机化来实现降低混杂因素影响的目的,所以也被称为“事后随机化”。当前在数据分析阶段中,控制混杂因素常用的方法包括了分层分析或多因素调整分析法;但如果需调整的混杂因素数量过多时、组间特征差异过大时,分层分析或多因素分析往往存在方法学上的局限性。PS 方法能克服以上这些局限,因此在观察性研究的数据分析处理中应用越来越广泛。
PS 定义为在混杂因素存在的情况下,研究对象进入到暴露组或处理组的条件概率。因此 PS 的函数模型为:E(X)=P(T=1|X),其中E(X)为 PS 的理论值,T=1 为暴露组或处理组,X为协变量向量。假设暴露组的研究对象为m,其 PS 即为E(Xm)=P(T=1|Xm);对照组的研究对象为n,其 PS 为E(Xn)=P(T=1|Xn);若E(Xm)与E(Xn)相类似或者相同,那么可推导出Xm与Xn相近或相同,从而保证了暴露组与对照组的均衡性,达到类随机化的效果。
Logistic 回归模型是最常用于 PS 的计算方法,即以T=1 作为因变量,把可测量的系列协变量作为自变量建立一个 logistic 回归方程;从方程中计算出的预测的接受暴露或处理的概率即为个体的 PS 值。除外 logistic 回归模型以外,其他的方法如随机森林法、人工神经网络、概率回归模型、递归树法等也可用于 PS 的计算。至于如何纳入自变量用于计算 PS,有研究建议与结局相关的协变量都需要纳入到方程中,但是值得注意的是工具变量(即与暴露或处理有关、但与结局无关的变量)不能作为自变量纳入到 PS 的计算模型中去[5,6]。
1.2 PS 方法的类型
PS 方法有四种类型,包括 PS 匹配法、分层法、校正法及加权法。下面就四种类型做简单介绍,为帮助理解,表 1 简要列举了不同类型 PS 法的应用实例[7-10]。

1.2.1 PS 匹配法
匹配法是目前运用非常广泛的一种方法,其核心的目的是通过匹配相近或相同 PS 值的参与者、使得他们的协变量分布达到均衡或趋于均衡、进而降低混杂因素的影响。匹配时,可按 1∶1 或者 1∶n 进行匹配,同时需考虑有无替代匹配、贪婪或最优匹配等策略的选择。而且需满足组间的 PS 值具有重叠分布、PS 值计算的条件独立性(即T=1 的计算只受可测量的协变量的影响,不受未测量的协变量的影响)这两个假设,才能进行 PS 匹配法[11]。
目前常用的匹配方法包括最近邻匹配与卡钳匹配法。顾名思义,最近邻匹配法就是按照暴露组参与者的 PS 值,选择与其差异最小(即最近邻)PS 值的对照组参与者作为匹配;但对于如何定义最近邻,则没有严格的规则。卡钳匹配法则通过设定一定的卡钳值(即暴露组与对照组参与者的 PS 值的差异),要求暴露组与对照组参与者的 PS 值必须在此卡钳值范围内进行匹配。通常建议卡钳值设为暴露组和对照组 PS 值的 logit 的合并标准差(the pooled standard deviation of the logit of the PS)的 20%,即可消除可测量协变量导致的 99% 的混杂偏倚[12]。
匹配后,需对组间进行均衡性评价。通常假如暴露组与对照组的协变量在匹配后的标准化差异小于 10%,则可认为该协变量在两组间已达到了很好的均衡性。当匹配以及均衡性评价完成以后,即可以对暴露或处理与结局之间的关系进行估算。
如表 1 所示,在 Wang 等[7]的研究里,他们通过 1∶1 匹配法成功匹配了 115 933 例使用质子泵抑制剂(proton pump inhibitor,PPI)的儿童与 115 933 例不使用 PPI 的儿童。在匹配的过程中,他们使用了贪婪匹配法、设定卡钳值为 20%,最后用标准化差异小于 10% 来衡量匹配后的均衡性。最后研究发现:PPI 的使用与儿童增加的骨折风险显著相关,即使增加的幅度不大[HR=1.11,95%CI(1.06,1.15)]。
1.2.2 PS 分层法
分层法是按照 PS 值的大小分成了若干区间,视不同区间为不同的层;而每一层的参与者的协变量分布可认为是同质或均衡的。先对每一层暴露或处理与结局之间的关联进行估算,然后对所有层的关联作加权平均,最后得出暴露或处理与结局之间的总的关联效应。
分层法可按照 PS 值分为 5~10 层,但通常建议把总体样本平均分为 5 层,既可满足实际的可操作性,也能降低 90% 以上的由可测量协变量导致的混杂偏倚[4]。表 1 中 De Ridder 等[8]的研究目的是探索高中时期辍学学生是否与其成人后的长期疾患、残疾的风险相关。通过计算 PS 值、平均分成 5 层,然后在每一层进行比值比(odds ratio,OR)的估算,最后通过加权算出最后的 OR=2.95,95%CI(2.44,3.57),总结出高中时期辍学与成人早期的疾病风险的升高具有显著的关联性。
1.2.3 PS 校正法
PS 校正法是通过把 PS 方法与传统的回归分析方法相结合,把 PS 作为一个新的协变量纳入到传统的回归分析,进而估算出暴露或处理与结局的关联效应。在回归分析中,自变量通常只有两个:PS 值与分组变量。这样的优势在于极大地减少了自变量的个数,同时没有损失掉参与者样本,通过控制了 PS 这一个新的协变量即可达到了控制多个混杂因素的目的[13]。Blok 等[9]在一项回顾性队列研究中(表 1),通过计算 PS 值、然后把 PS 值与暴露变量放入 logistic 回归方程,发现在直肠癌病人中,网膜成形术与术后的腹会阴疾病风险降低无显著的关联[OR=0.81,95%CI(0.48,1.36)]。他们同时进行了敏感性分析,除了 PS 值与暴露变量以外,进一步把年龄、性别、糖尿病等部分用来计算 PS 值的因素作为协变量也放入到回归方程,结果与原来的分析保持一致[OR=0.89,95%CI(0.45,1.75)]。
1.2.4 PS 加权法
加权法的核心理念就是利用标准化的原理,基于 PS 值对参与者赋予相对应的权重进行加权,使得组间的可测量的协变量达到同质或均衡。目前最常用的加权法为逆概率处理加权法(inverse probability of treatment weighting,IPTW),即以总体的所有参与者(暴露或处理组的参与者合并对照组的参与者)作为标准人群进行权重调整:暴露或处理组的参与者赋予其 PS 值的倒数的权重(即),而对照组的参与者赋予 1 减去其 PS 值的倒数的权重(即
)[14]。这种加权法对于参与者 PS 值非常接近 0 或 1 的时候会存在一定局限性,这种局限可通过微调权重的计算得以改善[15]。值得注意的是,由于参与者被赋予不同的权重,经过 IPTW 后的人数可能会与原来的人数略微不一致,但这并不影响加权法对暴露或处理与结局之间的关联效应的估计。在 Hernandez 等[10]的研究中(表 1),他们首先计算 PS 值,然后用 IPTW 对每一个参与者进行加权,探索达比加群对比于华法林是否和房颤病人的出血风险显著相关。通过对 IPTW 加权的队列分析,结果发现相比于华法林,达比加群与主要胃肠道出血风险的升高显著相关[HR=1.85,95%CI(1.64,2.07)],但也与颅内出血风险的降低显著相关[HR=0.32,95%CI(0.20,0.50)]。
1.3 PS 四种方法的选择
当前的文献运用 PS 匹配法和加权法比较多,但尚无比较统一的推荐选择。PS 匹配法容易导致选择偏倚,主要是由于部分参与者无法匹配上而容易造成样本的损失;分层法通常由于是在区间的水平进行均衡性处理,相对于另外 3 种按照个体水平来处理的 PS 方法,分层法降低混杂因素影响的效果可能会较差;加权法由于经过加权后参与者人数的改变,容易造成理解上与结果解读上的困难;使用校正法时,如果暴露或处理组与对照组的 PS 值分布存在较大差异的时候,把 PS 作为一个综合的协变量放入模型时往往容易产生有偏甚至是错误的关联效应估计值。
已有报道通过使用模拟研究对 PS 的 4 种方法从准确性(bias)与精确性(precision)等维度进行对比。例如在生存分析中,当需要估计 HR 时,匹配法与 IPTW 的模型表现要比分层法与校正法的好[16];当生存分析需要估计的是绝对效应时(如组间的生存时间的绝对差异、结局发生的风险的绝对差异等),运用分层法得到的结果要比匹配和 IPTW 法产生更大的偏倚[17]。在 logistic 回归分析中,无论是当真正的 OR 为 1 或者当 OR 在 2~10 之间浮动时,匹配法都比分层法与校正法产生更小的偏倚、统计性能表现更佳[18]。但是由于这些模拟研究所用的数据是否具有代表性、参数的设定等特定因素,模拟研究结论还有待进一步验证;所以当前对 PS 四种方法的推荐建议还需要更多的高质量证据。
1.4 PS 方法用于估算暴露与结局关联的变量选择
计算完 PS 值、选择 PS 上述的四种方法对数据处理完成以后,理论上当估算暴露与结局的关联的时候只需要把暴露放入模型即可(对于 PS 校正法还需把 PS 值放入模型);然而研究人员往往也会把相关的协变量额外放入到模型进行校正(如上述 Blok 等的研究)。至于应该把哪些协变量(除了暴露与 PS 值外)放入到模型,目前尚存在较大争议。有研究支持使用经验及P值进行筛选,也有研究认为应该从因果路径中找出真正的混杂因素,仅对这些真正的混杂因素进行平衡。而 Austin 的一项研究则表明:在使用 PS 法估算相对危险度(relative risk,RR)的时候,相对于模型中仅纳入与结局相关的变量或仅纳入真正的混杂变量而言,模型中纳入所有与暴露相关的变量、或纳入所有可测量的变量都会产生较大的误差[19]。
2 PS 方法与多元回归、RCT 的比较
PS 方法运用得越来越广泛,但对其得到的结论的正确性也常遭受怀疑。表 2 总结了 PS 法对比多元回归(观察性研究最常用的数据分析方法)、RCT 结果的部分报道证据。例如 Stürmer[20]与 Shah[21]等通过系统检索回答同一个研究问题(即研究的人群、暴露、对照与结局等要素相似)的观察性研究,发现使用 PS 方法与多元回归所得到的结论相似。但 Cepeda 等[22]的模拟研究则发现当研究结局(outcome event)的数量大于 8 倍混杂因素的数量的时候,logistic 回归的表现要优于 PS 方法。除外模拟研究,观察性研究往往缺乏可作为金标准的关联效应,PS 方法与多元回归的结果通常只能做相似性的对比;尤其是当 PS 方法与多元回归得到的结论不一致时,难以判断到底是哪一种方法更准确,所以仍需进一步的模拟研究对两种方法的模型表现及性能进行比较。因此对于到底选择 PS 方法还是多元回归法,目前往往是根据结局数量的经验证据来推荐[23]。

相比而言,高质量 RCT 产生的结论往往可用作金标准来衡量 PS 方法得到的结果是否正确。如我们之前的一项研究表明在估计新型抗凝药预防房颤病人中风的有效性安全性的关联效应时,PS 方法得到的观察性研究结果与 RCT 的保持一致[24]。但有研究表明,相对于 RCT 的结果,PS 方法的结果可能会高估或者低估关联效应的估计[25,26]。在观察性研究中,对 PS 方法得到的结果进行解读与交流时需要科学谨慎、紧密联系研究自身设计、数据、质量控制等的特点。尤其是当缺乏高质量的 RCT 证据(金标准)时,切不能过于迷信 PS 方法的结果。
3 小结
本文对 PS 方法在观察性研究中的应用做了简单介绍。需要强调的是,PS 方法是数据分析的一种策略,属于事后随机化的措施;当前对 PS 四种方法的选择尚缺乏有效推荐;PS 方法得到的结论与传统的回归分析、RCT 的结果也可能存在差异。解读 PS 方法的结果须谨慎科学,因为 PS 方法只能针对可测量的协变量产生的混杂影响,无法控制未知协变量带来的混杂效应。PS 方法也不适用于所有的观察性研究,譬如对于多分类或者连续性的暴露或处理、随着时间而改变的暴露或处理、暴露或处理较为罕见等问题,需要对 PS 方法进行改良或改用其他方法。在运用 PS 方法前需要结合研究自身的特点,进行全盘系统细致的考虑。如其他的科学研究一样,运用 PS 方法也需要科学的设计、严谨的实施与质量控制、事先定好的合理的分析策略、正确的结果解读与汇报,这样才能使得 PS 方法在观察性研究中发挥越来越大的作用。
干预性措施的随机对照试验(randomized controlled trial,RCT)产生的高质量证据在当前的循证医学体系里往往被认为“金标准”。RCT 研究采用随机分组的方法,能够把非干预因素平衡分配到干预组与对照组,使基线组间均衡可比,最大限度地控制混杂因素对结果的影响[1]。但并非所有的研究问题都可以采用 RCT 设计,所以观察性研究(observational study,OS)往往能提供不可或缺的证据。然而观察性研究容易受到混杂因素的影响,使得暴露因素与结局的真实关联容易被夸大或缩小,从而导致错误的结论[2]。如图 1 所示,假如群体中有三分之一(4/12)的参与者的某些特征是某不良结局的危险因素,由于缺乏随机化的过程,此危险因素在暴露组(1/6)与非暴露组(3/6)之间的分配并不均衡,间接导致了非暴露组更容易观察到不良结局的发生,从而使得暴露与结局的真实关联被错误地夸大了。因此如何控制混杂因素、降低或消除混杂因素对关联的影响,是观察性研究须谨慎考虑的方法学问题。

近年来,倾向性评分(propensity score,PS)方法越来越多地运用到观察性研究中。PS 方法 20 世纪 80 年代由 Rosenbaum 和 Rubin 首次提出,后由 Austin 等大力推广[3,4]。PS 方法是通过综合系列已知的可测量的协变量(measured covariates)来模拟 RCT 的随机化、提高组间的均衡性,进而达到降低混杂因素影响目的一种分析策略。本文介绍了 PS 方法的原理、类型及其在观察性研究中的应用,同时对 PS 方法与多元回归、RCT 的结果进行了比较分析。
1 PS 方法的原理、类型及应用
1.1 基本概念
相对于观察性研究设计阶段的策略(如确定纳排标准、实行分层或匹配的措施等),PS 方法是属于在数据分析阶段采取的一种措施,目的是通过模拟 RCT 的随机化来实现降低混杂因素影响的目的,所以也被称为“事后随机化”。当前在数据分析阶段中,控制混杂因素常用的方法包括了分层分析或多因素调整分析法;但如果需调整的混杂因素数量过多时、组间特征差异过大时,分层分析或多因素分析往往存在方法学上的局限性。PS 方法能克服以上这些局限,因此在观察性研究的数据分析处理中应用越来越广泛。
PS 定义为在混杂因素存在的情况下,研究对象进入到暴露组或处理组的条件概率。因此 PS 的函数模型为:E(X)=P(T=1|X),其中E(X)为 PS 的理论值,T=1 为暴露组或处理组,X为协变量向量。假设暴露组的研究对象为m,其 PS 即为E(Xm)=P(T=1|Xm);对照组的研究对象为n,其 PS 为E(Xn)=P(T=1|Xn);若E(Xm)与E(Xn)相类似或者相同,那么可推导出Xm与Xn相近或相同,从而保证了暴露组与对照组的均衡性,达到类随机化的效果。
Logistic 回归模型是最常用于 PS 的计算方法,即以T=1 作为因变量,把可测量的系列协变量作为自变量建立一个 logistic 回归方程;从方程中计算出的预测的接受暴露或处理的概率即为个体的 PS 值。除外 logistic 回归模型以外,其他的方法如随机森林法、人工神经网络、概率回归模型、递归树法等也可用于 PS 的计算。至于如何纳入自变量用于计算 PS,有研究建议与结局相关的协变量都需要纳入到方程中,但是值得注意的是工具变量(即与暴露或处理有关、但与结局无关的变量)不能作为自变量纳入到 PS 的计算模型中去[5,6]。
1.2 PS 方法的类型
PS 方法有四种类型,包括 PS 匹配法、分层法、校正法及加权法。下面就四种类型做简单介绍,为帮助理解,表 1 简要列举了不同类型 PS 法的应用实例[7-10]。

1.2.1 PS 匹配法
匹配法是目前运用非常广泛的一种方法,其核心的目的是通过匹配相近或相同 PS 值的参与者、使得他们的协变量分布达到均衡或趋于均衡、进而降低混杂因素的影响。匹配时,可按 1∶1 或者 1∶n 进行匹配,同时需考虑有无替代匹配、贪婪或最优匹配等策略的选择。而且需满足组间的 PS 值具有重叠分布、PS 值计算的条件独立性(即T=1 的计算只受可测量的协变量的影响,不受未测量的协变量的影响)这两个假设,才能进行 PS 匹配法[11]。
目前常用的匹配方法包括最近邻匹配与卡钳匹配法。顾名思义,最近邻匹配法就是按照暴露组参与者的 PS 值,选择与其差异最小(即最近邻)PS 值的对照组参与者作为匹配;但对于如何定义最近邻,则没有严格的规则。卡钳匹配法则通过设定一定的卡钳值(即暴露组与对照组参与者的 PS 值的差异),要求暴露组与对照组参与者的 PS 值必须在此卡钳值范围内进行匹配。通常建议卡钳值设为暴露组和对照组 PS 值的 logit 的合并标准差(the pooled standard deviation of the logit of the PS)的 20%,即可消除可测量协变量导致的 99% 的混杂偏倚[12]。
匹配后,需对组间进行均衡性评价。通常假如暴露组与对照组的协变量在匹配后的标准化差异小于 10%,则可认为该协变量在两组间已达到了很好的均衡性。当匹配以及均衡性评价完成以后,即可以对暴露或处理与结局之间的关系进行估算。
如表 1 所示,在 Wang 等[7]的研究里,他们通过 1∶1 匹配法成功匹配了 115 933 例使用质子泵抑制剂(proton pump inhibitor,PPI)的儿童与 115 933 例不使用 PPI 的儿童。在匹配的过程中,他们使用了贪婪匹配法、设定卡钳值为 20%,最后用标准化差异小于 10% 来衡量匹配后的均衡性。最后研究发现:PPI 的使用与儿童增加的骨折风险显著相关,即使增加的幅度不大[HR=1.11,95%CI(1.06,1.15)]。
1.2.2 PS 分层法
分层法是按照 PS 值的大小分成了若干区间,视不同区间为不同的层;而每一层的参与者的协变量分布可认为是同质或均衡的。先对每一层暴露或处理与结局之间的关联进行估算,然后对所有层的关联作加权平均,最后得出暴露或处理与结局之间的总的关联效应。
分层法可按照 PS 值分为 5~10 层,但通常建议把总体样本平均分为 5 层,既可满足实际的可操作性,也能降低 90% 以上的由可测量协变量导致的混杂偏倚[4]。表 1 中 De Ridder 等[8]的研究目的是探索高中时期辍学学生是否与其成人后的长期疾患、残疾的风险相关。通过计算 PS 值、平均分成 5 层,然后在每一层进行比值比(odds ratio,OR)的估算,最后通过加权算出最后的 OR=2.95,95%CI(2.44,3.57),总结出高中时期辍学与成人早期的疾病风险的升高具有显著的关联性。
1.2.3 PS 校正法
PS 校正法是通过把 PS 方法与传统的回归分析方法相结合,把 PS 作为一个新的协变量纳入到传统的回归分析,进而估算出暴露或处理与结局的关联效应。在回归分析中,自变量通常只有两个:PS 值与分组变量。这样的优势在于极大地减少了自变量的个数,同时没有损失掉参与者样本,通过控制了 PS 这一个新的协变量即可达到了控制多个混杂因素的目的[13]。Blok 等[9]在一项回顾性队列研究中(表 1),通过计算 PS 值、然后把 PS 值与暴露变量放入 logistic 回归方程,发现在直肠癌病人中,网膜成形术与术后的腹会阴疾病风险降低无显著的关联[OR=0.81,95%CI(0.48,1.36)]。他们同时进行了敏感性分析,除了 PS 值与暴露变量以外,进一步把年龄、性别、糖尿病等部分用来计算 PS 值的因素作为协变量也放入到回归方程,结果与原来的分析保持一致[OR=0.89,95%CI(0.45,1.75)]。
1.2.4 PS 加权法
加权法的核心理念就是利用标准化的原理,基于 PS 值对参与者赋予相对应的权重进行加权,使得组间的可测量的协变量达到同质或均衡。目前最常用的加权法为逆概率处理加权法(inverse probability of treatment weighting,IPTW),即以总体的所有参与者(暴露或处理组的参与者合并对照组的参与者)作为标准人群进行权重调整:暴露或处理组的参与者赋予其 PS 值的倒数的权重(即),而对照组的参与者赋予 1 减去其 PS 值的倒数的权重(即
)[14]。这种加权法对于参与者 PS 值非常接近 0 或 1 的时候会存在一定局限性,这种局限可通过微调权重的计算得以改善[15]。值得注意的是,由于参与者被赋予不同的权重,经过 IPTW 后的人数可能会与原来的人数略微不一致,但这并不影响加权法对暴露或处理与结局之间的关联效应的估计。在 Hernandez 等[10]的研究中(表 1),他们首先计算 PS 值,然后用 IPTW 对每一个参与者进行加权,探索达比加群对比于华法林是否和房颤病人的出血风险显著相关。通过对 IPTW 加权的队列分析,结果发现相比于华法林,达比加群与主要胃肠道出血风险的升高显著相关[HR=1.85,95%CI(1.64,2.07)],但也与颅内出血风险的降低显著相关[HR=0.32,95%CI(0.20,0.50)]。
1.3 PS 四种方法的选择
当前的文献运用 PS 匹配法和加权法比较多,但尚无比较统一的推荐选择。PS 匹配法容易导致选择偏倚,主要是由于部分参与者无法匹配上而容易造成样本的损失;分层法通常由于是在区间的水平进行均衡性处理,相对于另外 3 种按照个体水平来处理的 PS 方法,分层法降低混杂因素影响的效果可能会较差;加权法由于经过加权后参与者人数的改变,容易造成理解上与结果解读上的困难;使用校正法时,如果暴露或处理组与对照组的 PS 值分布存在较大差异的时候,把 PS 作为一个综合的协变量放入模型时往往容易产生有偏甚至是错误的关联效应估计值。
已有报道通过使用模拟研究对 PS 的 4 种方法从准确性(bias)与精确性(precision)等维度进行对比。例如在生存分析中,当需要估计 HR 时,匹配法与 IPTW 的模型表现要比分层法与校正法的好[16];当生存分析需要估计的是绝对效应时(如组间的生存时间的绝对差异、结局发生的风险的绝对差异等),运用分层法得到的结果要比匹配和 IPTW 法产生更大的偏倚[17]。在 logistic 回归分析中,无论是当真正的 OR 为 1 或者当 OR 在 2~10 之间浮动时,匹配法都比分层法与校正法产生更小的偏倚、统计性能表现更佳[18]。但是由于这些模拟研究所用的数据是否具有代表性、参数的设定等特定因素,模拟研究结论还有待进一步验证;所以当前对 PS 四种方法的推荐建议还需要更多的高质量证据。
1.4 PS 方法用于估算暴露与结局关联的变量选择
计算完 PS 值、选择 PS 上述的四种方法对数据处理完成以后,理论上当估算暴露与结局的关联的时候只需要把暴露放入模型即可(对于 PS 校正法还需把 PS 值放入模型);然而研究人员往往也会把相关的协变量额外放入到模型进行校正(如上述 Blok 等的研究)。至于应该把哪些协变量(除了暴露与 PS 值外)放入到模型,目前尚存在较大争议。有研究支持使用经验及P值进行筛选,也有研究认为应该从因果路径中找出真正的混杂因素,仅对这些真正的混杂因素进行平衡。而 Austin 的一项研究则表明:在使用 PS 法估算相对危险度(relative risk,RR)的时候,相对于模型中仅纳入与结局相关的变量或仅纳入真正的混杂变量而言,模型中纳入所有与暴露相关的变量、或纳入所有可测量的变量都会产生较大的误差[19]。
2 PS 方法与多元回归、RCT 的比较
PS 方法运用得越来越广泛,但对其得到的结论的正确性也常遭受怀疑。表 2 总结了 PS 法对比多元回归(观察性研究最常用的数据分析方法)、RCT 结果的部分报道证据。例如 Stürmer[20]与 Shah[21]等通过系统检索回答同一个研究问题(即研究的人群、暴露、对照与结局等要素相似)的观察性研究,发现使用 PS 方法与多元回归所得到的结论相似。但 Cepeda 等[22]的模拟研究则发现当研究结局(outcome event)的数量大于 8 倍混杂因素的数量的时候,logistic 回归的表现要优于 PS 方法。除外模拟研究,观察性研究往往缺乏可作为金标准的关联效应,PS 方法与多元回归的结果通常只能做相似性的对比;尤其是当 PS 方法与多元回归得到的结论不一致时,难以判断到底是哪一种方法更准确,所以仍需进一步的模拟研究对两种方法的模型表现及性能进行比较。因此对于到底选择 PS 方法还是多元回归法,目前往往是根据结局数量的经验证据来推荐[23]。

相比而言,高质量 RCT 产生的结论往往可用作金标准来衡量 PS 方法得到的结果是否正确。如我们之前的一项研究表明在估计新型抗凝药预防房颤病人中风的有效性安全性的关联效应时,PS 方法得到的观察性研究结果与 RCT 的保持一致[24]。但有研究表明,相对于 RCT 的结果,PS 方法的结果可能会高估或者低估关联效应的估计[25,26]。在观察性研究中,对 PS 方法得到的结果进行解读与交流时需要科学谨慎、紧密联系研究自身设计、数据、质量控制等的特点。尤其是当缺乏高质量的 RCT 证据(金标准)时,切不能过于迷信 PS 方法的结果。
3 小结
本文对 PS 方法在观察性研究中的应用做了简单介绍。需要强调的是,PS 方法是数据分析的一种策略,属于事后随机化的措施;当前对 PS 四种方法的选择尚缺乏有效推荐;PS 方法得到的结论与传统的回归分析、RCT 的结果也可能存在差异。解读 PS 方法的结果须谨慎科学,因为 PS 方法只能针对可测量的协变量产生的混杂影响,无法控制未知协变量带来的混杂效应。PS 方法也不适用于所有的观察性研究,譬如对于多分类或者连续性的暴露或处理、随着时间而改变的暴露或处理、暴露或处理较为罕见等问题,需要对 PS 方法进行改良或改用其他方法。在运用 PS 方法前需要结合研究自身的特点,进行全盘系统细致的考虑。如其他的科学研究一样,运用 PS 方法也需要科学的设计、严谨的实施与质量控制、事先定好的合理的分析策略、正确的结果解读与汇报,这样才能使得 PS 方法在观察性研究中发挥越来越大的作用。