在医学研究领域,先行性与可行性研究是为降低正式试验的不确定性、提高正式试验的总体质量及成功率而实施的先行的试探性试验;先行性与可行性研究是为了回答“未来的正式试验能否实行、是否应该实行(如果应该实行,如何实行)”这样的问题。Ⅲ期临床试验耗时耗力、需大量的资源投入,所以在实施正式试验前往往需要开展先行性的试探性的小规模试验、以确保正式试验的可行性与顺利开展。目前先行性与可行性研究越来越受到关注,然而在国内此类研究仍需大力推广与重视。本文就先行性与可行性研究的相关概念、对正式试验的价值、实例分析与研究现状作简单介绍。
在医学研究领域,高质量的Ⅲ期临床试验提供的证据通常可作为金标准来衡量干预的有效性与安全性。然而Ⅲ期临床试验耗时耗力、需大量的资源投入,所以在实施正式试验前往往需要开展先行性的小规模试验、以确保正式试验的可行性与顺利开展。此类试探性试验称为先行性与可行性研究(pilot and feasibility studies,PAFS)。目前 PAFS 越来越受到关注,然而在国内 PAFS 仍处于探索阶段,需要大力推广与重视。本文就医学研究领域 PAFS 的相关概念、对正式试验的价值、实例分析与研究现状作简单介绍。
1 PAFS 定义与相关概念
在医学研究领域,PAFS 是为降低正式试验的不确定性、提高正式试验的总体质量及成功率而实施的先行试探性试验[1]。先行性(pilot)和可行性研究(feasibility study)都是为了回答“未来的正式试验能否实行、是否应该实行(如果应该实行,如何实行)”这样的问题(表 1),譬如能否及时纳入足够的受试者、失访率是否过高、纳入排除标准是否过于苛刻、干预的措施和结局的测量能否被研究人员与受试者所接受等[2]。先行性与可行性的定义存在着细微的差别,此差别在于先行性是遵照未来正式试验的设计特点去实行的小规模试验,可行性则可能不需过多考虑未来试验的设计要素而去开展;因此可行性包含了先行性,先行性是可行性的一个子集[3]。在医学研究领域,PAFS 通常为随机对照试验(randomized controlled trial,RCT)、非 RCT 及其他研究设计类型的预试验;其中 RCT 是 PAFS 最主要的种类、是充分考虑了正式试验设计要素而实行的,也是当前文献报道最多的一种 PAFS[1, 4]。本文下面着重讨论的也是 PAFS RCT。

使用先行性或可行性研究 RCT 的英文名词比较繁杂,包括 pilot RCT、feasibility RCT、randomized pilot study、feasibility trial、randomized feasibility study、pilot investigation 等。当前达成的共识认为:只要 PAFS 是在正式 RCT 开展前实行的、是为探索正式试验是否可行而做的研究,都属于 PAFS RCT 的范畴[1]。
PAFS 也可分为外部试验(external PAFS)与内部试验(internal PAFS)两种类型。两者的区别在于:外部试验是独立于正式试验的,正式试验的设计及实行可能会因为外部试验的结果而改变(例如由于纳入排除标准的改变导致目标人群的改变),因此外部试验的数据是不用来合并正式试验作分析使用的、不会影响正式试验的效应估计;而内部试验的数据将会与正式试验的合并使用[3]。由于内部试验本质上属于正式试验的一部分,当前文献对内部试验(尤其是使用适应性研究设计的内部试验)的研究报道较多;例如英国的医学研究委员会对内部试验发表了系列的指导性文章[5, 6]。相对而言,文献中对外部试验的研究比较欠缺;而目前对外部试验的研究也逐渐成为了 PAFS 的主流,包括 2016 发表在 BMJ 的 CONSORT 扩展版对 PAFS 汇报的指南也是针对外部试验而言的[3],发表在 BMC Pilot and Feasibility Studies 杂志上的 PAFS 大部分也是属于外部试验[7]。
值得注意的是,由于 PAFS 是为解决正式试验不确定性而实行的试验,其并非受假设检验驱动,所以 PAFS 与Ⅱ期临床试验具有明显的区别:Ⅱ期临床试验往往是为了探索干预的安全性与初步评估干预的有效性;而 PAFS 是为了回答未来的正式试验是否可行这一科学问题,通常是在Ⅱ期临床试验之后、Ⅲ期正式试验之前开展的。PAFS 应以可行性为主要研究目的,而不鼓励以探索干预措施的有效性为目的(因为有效性安全性的初步评价需开展的是Ⅱ期 RCT、进一步大样本系统评估有效性安全性需开展的是Ⅲ期 RCT)[2, 3]。即使有些 PAFS 的结果能为干预的有效性、安全性(尤其是效应值与样本量的估计)提供一定的证据与经验,这些信息需十分谨慎看待、而且需强调关注的应是区间估计(例如 95%CI)而并非点估计值,因为 PAFS 是为了解决正式试验的可行性为目的的、样本量过小而不足以提供可信的估计值[8, 9]。
2 PAFS 的价值
如上所述,PAFS 是为解决正式试验的不确定性、提高其可行性与总体质量而实行的试验,因此 PAFS 往往是正式试验实施前的一个关键步骤。具体而言,PAFS 可改进正式试验的设计及完善试验方案,包括试验流程、信息采集表、提高患者参与实验的意愿及依从性等;也可测试试验的方法学要点,包括随机化、盲法的实施、患者对干预的可接受程度等等;评估各种试验所需的资源情况,包括招募受试者的数量与速度、所需的人财物力、各种机构的协调配合程度等;也可为正式试验提供一定的数据与经验,包括主要结局的选择、效应值初步评估与不确定性、样本量的估算等等[10]。
由于Ⅲ期 RCT 往往是多中心大样本、耗费大量基金与时间、花费各种资源的临床试验,所以在开展前须确保正式试验的可行性;国外某些研究机构目前甚至要求研究者须提交 PAFS 证据证明Ⅲ期 RCT 可行性,才会给予资助。2001 年发表在 BMJ 的研究指出,缺乏可行性是造成Ⅲ期 RCT 提前彻底废止的第二大原因;因缺乏可行性而提前终止正式试验的做法,是违反了赫尔辛基原则的,是不伦理的科学研究行为[11, 12]。因此除非特殊情况,在开展Ⅲ期正式试验前,通常要求研究者先实行 PAFS 以确保正式试验的可行性[3, 9]。
3 实例分析
2014 年发表在 CMAJ 的一项名为 HIP ATTACK 的 PAFS RCT[13],旨在探索在髋骨骨折患者中,开展一项大型的、探索快速手术治疗模式的有效性的正式试验是否可行。该 PAFS 的可行性结局是在 18 个月以内须成功随机分配 60 例符合标准的患者(30 例入组快速手术治疗模式、30 例入组常规手术治疗模式)、不低于 70% 符合标准的患者同意自愿参加试验、30 天内随访率不低于 95%。
该试验的结果最终均满足可行性的标准:在 14 个月以内成功分配 60 例患者、80% 的患者同意参加试验、随访率 100%。该试验同时汇报了一些关于快速手术治疗模式有效性的结果[HR=0.60,95%CI(0.26,1.39)];此结果也在文章的讨论部分得以详细解读,并强调了由于此 PAFS 并非受假设检验(快速手术治疗模式的效果不同于常规手术治疗模式)驱动的、样本量肯定也不足以检验假设,因此应该更关注其结果的 95%CI,而非点估计值。基于此 PAFS 的结果,文章的结论是支持未来的Ⅲ期正式试验具有明确的可行性。该 PAFS 的汇报也很好地遵循了 CONSORT 可行性研究扩展版:除了部分条目不适用以外(6b、6c、7b 和 19a),其余条目要求的内容在该文章中都得到了详细汇报。
4 当前 PAFS 发展现状
PAFS 还属于一个较新的领域,而且由于 PAFS 属于在正式试验开展前的一类试探性试验,所以往往容易被忽略[14]。从 2016 年关于 PAFS 的汇报指南(CONSORT extension to randomized PAFS)发表在 BMJ 以后,PAFS 越来越受到重视。例如 BMC Pilot and Feasibility Studies 发表的关于 PAFS 的文章,从 2016 年的 73 篇上升到 2019 年的 156 篇,该杂志收到的投稿也从 2016 年的 182 篇上升到 2019 年的 531 篇;英国某些研究机构也逐渐开设关于 PAFS 的专门网站,旨在推广 PAFS 的标准化实施与汇报、提高 PAFS 的整体质量。然而国内的 PAFS 目前还处于起步阶段,不受关注。譬如我们团队之前的一项关于中医药 PAFS 研究现状的调查发现:国内中医药 PAFS 的质量低下,很多研究甚至概念不清,报告也没有遵循 2016 年发表的 CONSORT 可行性研究扩展版要求[15]。故 PAFS 在国内还需进一步的推广与重视。
同时,PAFS 的方法学要素还需进一步的深入研究。譬如发表 BMJ 的指南虽然要求 PAFS 的文章明确汇报可行性的标准(即 PAFS 达到了何种标准才能明确未来的正式试验具有可行性),然而如何选择这个标准,还缺乏明确的详细解释。以招募受试者的成功率为例,在所有符合标准的受试者中,同意自愿参加试验的患者需达到 60% 还是 80% 的比例,才能确定未来的正式试验具有明显的可行性?当前并无研究对此进行解释。同理,如何确定 PAFS 的样本量,也需更多的研究证据。因为 PAFS 并非受假设检验驱动的,所以 PAFS 的样本量往往是基于研究者的经验或专业判断估算的[16]。PAFS 的开展也可能会遇到伦理方面的质疑:因为 PAFS 并非受假设检验驱动的,故某些 PAFS 中受试者的权益能否得以最大程度的保护和实现,是研究亟待解决的一个重要问题[9]。这些方法学的要点都仍需进一步的研究。
5 小结
PAFS 是为降低正式试验不确定性、增加正式试验成功率、提高正式试验质量而开展的关键探索性试验。PAFS 目前越来越受到关注,然而国内对 PAFS 的推广与重视仍需大力加强。PAFS 的方法学要点也需更多的研究与证据来完善。高质量的 PAFS RCT 的开展,将会为正式试验的顺利开展、降低试验失败风险、避免研究资源的浪费提供不可或缺的数据支持和关键证据。
致谢:由衷感谢北京中医药大学的刘建平教授为本文提供的非常有价值的建议与意见。
在医学研究领域,高质量的Ⅲ期临床试验提供的证据通常可作为金标准来衡量干预的有效性与安全性。然而Ⅲ期临床试验耗时耗力、需大量的资源投入,所以在实施正式试验前往往需要开展先行性的小规模试验、以确保正式试验的可行性与顺利开展。此类试探性试验称为先行性与可行性研究(pilot and feasibility studies,PAFS)。目前 PAFS 越来越受到关注,然而在国内 PAFS 仍处于探索阶段,需要大力推广与重视。本文就医学研究领域 PAFS 的相关概念、对正式试验的价值、实例分析与研究现状作简单介绍。
1 PAFS 定义与相关概念
在医学研究领域,PAFS 是为降低正式试验的不确定性、提高正式试验的总体质量及成功率而实施的先行试探性试验[1]。先行性(pilot)和可行性研究(feasibility study)都是为了回答“未来的正式试验能否实行、是否应该实行(如果应该实行,如何实行)”这样的问题(表 1),譬如能否及时纳入足够的受试者、失访率是否过高、纳入排除标准是否过于苛刻、干预的措施和结局的测量能否被研究人员与受试者所接受等[2]。先行性与可行性的定义存在着细微的差别,此差别在于先行性是遵照未来正式试验的设计特点去实行的小规模试验,可行性则可能不需过多考虑未来试验的设计要素而去开展;因此可行性包含了先行性,先行性是可行性的一个子集[3]。在医学研究领域,PAFS 通常为随机对照试验(randomized controlled trial,RCT)、非 RCT 及其他研究设计类型的预试验;其中 RCT 是 PAFS 最主要的种类、是充分考虑了正式试验设计要素而实行的,也是当前文献报道最多的一种 PAFS[1, 4]。本文下面着重讨论的也是 PAFS RCT。

使用先行性或可行性研究 RCT 的英文名词比较繁杂,包括 pilot RCT、feasibility RCT、randomized pilot study、feasibility trial、randomized feasibility study、pilot investigation 等。当前达成的共识认为:只要 PAFS 是在正式 RCT 开展前实行的、是为探索正式试验是否可行而做的研究,都属于 PAFS RCT 的范畴[1]。
PAFS 也可分为外部试验(external PAFS)与内部试验(internal PAFS)两种类型。两者的区别在于:外部试验是独立于正式试验的,正式试验的设计及实行可能会因为外部试验的结果而改变(例如由于纳入排除标准的改变导致目标人群的改变),因此外部试验的数据是不用来合并正式试验作分析使用的、不会影响正式试验的效应估计;而内部试验的数据将会与正式试验的合并使用[3]。由于内部试验本质上属于正式试验的一部分,当前文献对内部试验(尤其是使用适应性研究设计的内部试验)的研究报道较多;例如英国的医学研究委员会对内部试验发表了系列的指导性文章[5, 6]。相对而言,文献中对外部试验的研究比较欠缺;而目前对外部试验的研究也逐渐成为了 PAFS 的主流,包括 2016 发表在 BMJ 的 CONSORT 扩展版对 PAFS 汇报的指南也是针对外部试验而言的[3],发表在 BMC Pilot and Feasibility Studies 杂志上的 PAFS 大部分也是属于外部试验[7]。
值得注意的是,由于 PAFS 是为解决正式试验不确定性而实行的试验,其并非受假设检验驱动,所以 PAFS 与Ⅱ期临床试验具有明显的区别:Ⅱ期临床试验往往是为了探索干预的安全性与初步评估干预的有效性;而 PAFS 是为了回答未来的正式试验是否可行这一科学问题,通常是在Ⅱ期临床试验之后、Ⅲ期正式试验之前开展的。PAFS 应以可行性为主要研究目的,而不鼓励以探索干预措施的有效性为目的(因为有效性安全性的初步评价需开展的是Ⅱ期 RCT、进一步大样本系统评估有效性安全性需开展的是Ⅲ期 RCT)[2, 3]。即使有些 PAFS 的结果能为干预的有效性、安全性(尤其是效应值与样本量的估计)提供一定的证据与经验,这些信息需十分谨慎看待、而且需强调关注的应是区间估计(例如 95%CI)而并非点估计值,因为 PAFS 是为了解决正式试验的可行性为目的的、样本量过小而不足以提供可信的估计值[8, 9]。
2 PAFS 的价值
如上所述,PAFS 是为解决正式试验的不确定性、提高其可行性与总体质量而实行的试验,因此 PAFS 往往是正式试验实施前的一个关键步骤。具体而言,PAFS 可改进正式试验的设计及完善试验方案,包括试验流程、信息采集表、提高患者参与实验的意愿及依从性等;也可测试试验的方法学要点,包括随机化、盲法的实施、患者对干预的可接受程度等等;评估各种试验所需的资源情况,包括招募受试者的数量与速度、所需的人财物力、各种机构的协调配合程度等;也可为正式试验提供一定的数据与经验,包括主要结局的选择、效应值初步评估与不确定性、样本量的估算等等[10]。
由于Ⅲ期 RCT 往往是多中心大样本、耗费大量基金与时间、花费各种资源的临床试验,所以在开展前须确保正式试验的可行性;国外某些研究机构目前甚至要求研究者须提交 PAFS 证据证明Ⅲ期 RCT 可行性,才会给予资助。2001 年发表在 BMJ 的研究指出,缺乏可行性是造成Ⅲ期 RCT 提前彻底废止的第二大原因;因缺乏可行性而提前终止正式试验的做法,是违反了赫尔辛基原则的,是不伦理的科学研究行为[11, 12]。因此除非特殊情况,在开展Ⅲ期正式试验前,通常要求研究者先实行 PAFS 以确保正式试验的可行性[3, 9]。
3 实例分析
2014 年发表在 CMAJ 的一项名为 HIP ATTACK 的 PAFS RCT[13],旨在探索在髋骨骨折患者中,开展一项大型的、探索快速手术治疗模式的有效性的正式试验是否可行。该 PAFS 的可行性结局是在 18 个月以内须成功随机分配 60 例符合标准的患者(30 例入组快速手术治疗模式、30 例入组常规手术治疗模式)、不低于 70% 符合标准的患者同意自愿参加试验、30 天内随访率不低于 95%。
该试验的结果最终均满足可行性的标准:在 14 个月以内成功分配 60 例患者、80% 的患者同意参加试验、随访率 100%。该试验同时汇报了一些关于快速手术治疗模式有效性的结果[HR=0.60,95%CI(0.26,1.39)];此结果也在文章的讨论部分得以详细解读,并强调了由于此 PAFS 并非受假设检验(快速手术治疗模式的效果不同于常规手术治疗模式)驱动的、样本量肯定也不足以检验假设,因此应该更关注其结果的 95%CI,而非点估计值。基于此 PAFS 的结果,文章的结论是支持未来的Ⅲ期正式试验具有明确的可行性。该 PAFS 的汇报也很好地遵循了 CONSORT 可行性研究扩展版:除了部分条目不适用以外(6b、6c、7b 和 19a),其余条目要求的内容在该文章中都得到了详细汇报。
4 当前 PAFS 发展现状
PAFS 还属于一个较新的领域,而且由于 PAFS 属于在正式试验开展前的一类试探性试验,所以往往容易被忽略[14]。从 2016 年关于 PAFS 的汇报指南(CONSORT extension to randomized PAFS)发表在 BMJ 以后,PAFS 越来越受到重视。例如 BMC Pilot and Feasibility Studies 发表的关于 PAFS 的文章,从 2016 年的 73 篇上升到 2019 年的 156 篇,该杂志收到的投稿也从 2016 年的 182 篇上升到 2019 年的 531 篇;英国某些研究机构也逐渐开设关于 PAFS 的专门网站,旨在推广 PAFS 的标准化实施与汇报、提高 PAFS 的整体质量。然而国内的 PAFS 目前还处于起步阶段,不受关注。譬如我们团队之前的一项关于中医药 PAFS 研究现状的调查发现:国内中医药 PAFS 的质量低下,很多研究甚至概念不清,报告也没有遵循 2016 年发表的 CONSORT 可行性研究扩展版要求[15]。故 PAFS 在国内还需进一步的推广与重视。
同时,PAFS 的方法学要素还需进一步的深入研究。譬如发表 BMJ 的指南虽然要求 PAFS 的文章明确汇报可行性的标准(即 PAFS 达到了何种标准才能明确未来的正式试验具有可行性),然而如何选择这个标准,还缺乏明确的详细解释。以招募受试者的成功率为例,在所有符合标准的受试者中,同意自愿参加试验的患者需达到 60% 还是 80% 的比例,才能确定未来的正式试验具有明显的可行性?当前并无研究对此进行解释。同理,如何确定 PAFS 的样本量,也需更多的研究证据。因为 PAFS 并非受假设检验驱动的,所以 PAFS 的样本量往往是基于研究者的经验或专业判断估算的[16]。PAFS 的开展也可能会遇到伦理方面的质疑:因为 PAFS 并非受假设检验驱动的,故某些 PAFS 中受试者的权益能否得以最大程度的保护和实现,是研究亟待解决的一个重要问题[9]。这些方法学的要点都仍需进一步的研究。
5 小结
PAFS 是为降低正式试验不确定性、增加正式试验成功率、提高正式试验质量而开展的关键探索性试验。PAFS 目前越来越受到关注,然而国内对 PAFS 的推广与重视仍需大力加强。PAFS 的方法学要点也需更多的研究与证据来完善。高质量的 PAFS RCT 的开展,将会为正式试验的顺利开展、降低试验失败风险、避免研究资源的浪费提供不可或缺的数据支持和关键证据。
致谢:由衷感谢北京中医药大学的刘建平教授为本文提供的非常有价值的建议与意见。