引用本文: 黄超, 李海龙, 张川, 曾力楠, 黄宗瑶, 易秋莎, 刘关键, 康德英, 刘巧兰, 赵荣生, 张俊华, 李幼平, 王强, 张伶俐. 指南临床适用性评价实证研究:以糖尿病指南临床适用性评价为例. 中国循证医学杂志, 2020, 20(5): 536-542. doi: 10.7507/1672-2531.201909126 复制
糖尿病是 21 世纪全球面临的最严峻健康问题之一。国际糖尿病联合会(International Diabetes Federation,IDF)统计显示[1],截至 2015 年全球糖尿病患者人数为 4.15 亿,成年人中平均每 11 个人就有 1 个是糖尿病患者,非传染性疾病风险因素协作组织(NCD Risk Factor Collaboration,NCD-RisC)的一项研究显示,从 1980 年到 2014 年,全球糖尿病患者的患病率翻了 1 倍,由 1980 年的 4.7% 增长到了 2014 年的 8.5%[2]。40 年来,随着我国人口老龄化与生活方式的变化,糖尿病的患病率呈直线上升趋势,从 1980 年的 0.67% 飙升至 2013 年的 10.4%[3]。自 2016 年 9 月开始,中华医学会糖尿病学分会(Chinese Diabetes Society,CDS)组织了内分泌科、心血管内科、精神心理科、营养学等多学科专家成立指南编写委员会及工作小组,修订完成了《中国 2 型糖尿病防治指南(2017 版)》(以下简称《糖尿病指南》)[4]。该指南制订坚持防治结合的方针,立足中国人群循证医学证据,着眼于临床应用的适用性和实用价值,对于规范临床医疗实践、改善中国糖尿病防控现状起到了重要的指导作用。
但另有研究指出,一些指南难以在临床实践中推广使用,在制订指南时应考虑临床适用性[5, 6]。国内外研究均显示,糖尿病相关指南普遍存在临床适用性差的问题[7, 8]。本研究利用前期制订的指南临床适用性评价工具[9]对该糖尿病指南的使用医师进行了问卷调查,通过分析调查评价结果,为该指南的临床适用性提出修订建议,并据此建立数据分析和结果报告模型,为我国指南适用性评价提供参考依据。
1 资料与方法
1.1 研究对象
课题组分别从东、中、西部地区抽取已开展糖尿病相关诊治工作的医疗机构,每家医疗机构抽取老年科、内分泌科、肾脏科或相关科室医生 6~8 人,其中高级职称 2~3 名、中级职称 2~3 名、初级职称 2 名。调查研究样本量预估为影响因素的 5~20 倍,取 5 倍,失访率 20%,最小样本量 80 例[10]。
1.2 调查工具
指南临床适用性评价问卷由 2 部分构成:① 调查对象基本信息:年龄、地区、学历、人员类别、职称、机构性质、机构等级、利益冲突说明等。② 评分量表:由 12 个条目(Q1~Q12)构成,前 10 个条目可分为 4 个维度,包括可获得性、可读性、可接受性和可行性,Q11 是总体评价,Q12 是 1 个开放性问题,收集提高指南适用性的建议。漏答 3 题以上的问卷视为无效问卷。
1.3 调查方法
在西安、长沙、海口三地组织指南临床适用性评价的研讨会,由当地卫健委抽调相应医院召集医师代表参会,以当地医院为主,同时覆盖周边城市医院。参会者阅读指南后填写指南临床适用性评价问卷,未到现场的医师通过在线填写电子问卷。
1.4 统计分析
问卷回收后,由 2 位研究人员采用 Epidata 软件对数据进行录入,并双向比对录入后的数据,不一致的数据由第三位研究人员查阅原始问卷确认。电子问卷完成后直接从网上导出数据。采用 R 软件和 SAS 软件进行统计分析。采用均数、标准差、中位数、四分位数间距指标描述性分析计量资料的总评分和各维度评分;采用率、构成比等指标描述性分析计数资料中获取指南途径和影响指南实施主要因素。多组比较前进行资料正态性检验和方差齐性检验,若资料服从正态分布且满足方差齐性则采用方差分析(ANOVA)进行多组比较,如多组间存在统计学差异则进一步采用Student-Newman-Keuls(SNK)方法进行组间两两比较;若资料不服从正态分布或不满足方差齐性,则采用 Kruskal-Wallis(K-W)秩和检验和 Nemenyi 检验进行多组比较和两两比较。采用多重线性回归方法并结合逐步回归筛选出各评分的影响因素。若不满足多重线性回归使用条件,则对数据进行转换,采用有序 logistic 回归进行影响因素分析。假设检验采用双侧检验,检验水准 α=0.05。
2 结果
2.1 问卷调查情况
本次调查共收集问卷 725 份,现场填写回收率 100%。剔除不符合标准的 3 份问卷,有效问卷 722 份,有效回收率 99.6%。
2.2 受调查者的基线特征
本研究的调查对象来自于医疗机构内分泌科、肾内科和老年科的医生,平均工作年限为 10.8 年。受调查者的基本特征见表 1。

2.3 指南临床适用性评分
根据正态性检验结果及比较均数和中位数判断,各评分结果不服从正态分布,故以中位数和四分位数描述评分集中和离散趋势。结果显示可获得性评分最低,可接受性评分最高(表 2)。组内相关系数(ICC)评价结果显示,各维度加和评分与总体评价的得分一致[ICC=0.687,95%CI(0.638,0.729),P<0.001]。

2.4 获取指南途径
指南获取途径前 3 位为:学术会议(52.1%)、微信(45.4%)和生物医学文献数据库(43.5%)(图 1)。

2.5 不同基线特征分组比较
按调查对象的不同基线特征进行分组比较,包括年龄、地区、最高学历、职称、专业领域、首次接触本指南时间、对指南熟悉程度、医疗机构性质、医疗机构级别和利益声明。各组别的分组依据见表 1。由于各分组评分不服从正态分布,因此采用非参数秩和检验方法进行组间比较。① 可获得性评分多组比较结果显示:各年龄、职称、专业领域、医疗机构级别、接触指南的时间、指南熟悉程度的可获得性评分差异有统计学意义(P<0.05)。② 可读性评分多组比较结果显示:最高学历、接触本指南的时间、对指南熟悉程度的可读性评分差异均有统计学意义(P<0.05)。③ 可接受性评分多组比较结果显示:各地区、各专业领域、接触本指南的时间、对指南熟悉程度的可接受性评分差异有统计学意义(P<0.05)。④ 可行性评分多组比较结果显示:各年龄、各学历、各职称、各医疗机构级别、接触本指南的时间、对指南熟悉程度的可行性评分差异有统计学意义(P<0.05)。⑤ 各维度加和总分多组比较结果显示:不同地区、最高学历、职称、专业领域、医疗机构级别、接触本指南时间、对指南熟悉程度的加和总分差异有统计学意义(P<0.05)(表 3)。

2.6 影响因素分析
以可获得性、可读性、可接受性、可行性、各维度评分加和总分和总体评价作为因变量,以调查对象的基线特征(年龄、地区、最高学历、职称等)作为自变量构建回归方程,结合逐步回归方法进行影响因素分析。结果显示:① 可获得性评分:首次接触指南时间、对指南熟悉程度、医疗机构级别是可获得性评分的影响因素(P<0.05)。首次接触指南时间越早、对指南熟悉程度越高的可获得性评分越高;三级医疗机构的可获得性高于二级医疗机构。② 可读性评分:对指南熟悉程度是可读性评分的影响因素(P<0.05)。对指南熟悉程度越高的可读性评分越高。③ 可接受性评分:年龄、地区、对指南熟悉程度是可接受性评分的影响因素(P<0.05)。年龄越大的医生可接受性评分越低,东部、中部地区的医生可接受性评分高于西部,对指南熟悉程度越高的医生可接受性评分越高。④ 可行性评分:年龄、最高学历、工作年限、对指南熟悉程度、医疗机构等级是可行性评分影响因素(P<0.05)。年龄越大的医生可行性评分越低;学历越高、工作年限越长、对指南熟悉程度越高、医疗机构等级越高的医生可行性评分越高。⑤ 各维度加和总分:年龄、最高学历、工作年限、对指南熟悉程度和医疗机构级别是各维度加和总分的影响因素(P<0.05)。年龄越大的医生各维度加和总分越低;学历越高、工作年限越长、对指南熟悉程度越高、医疗机构级别越高的医生各维度加和总分越高。⑥ 总体评价:对指南熟悉程度是总体评价的影响因素(P<0.05),对指南熟悉程度越高的总体评价越高(表 4)。

2.7 指南实施影响因素分析
在 722 名调查对象中,认为指南存在实施障碍的有 139 名(19.3%)。在这些调查对象中,认为实施障碍为医务人员因素的有 136 名(97.8%),其中患者因素 134 名(96.4%),环境因素 133 名(95.7%),指南因素 101 名(72.7%)(表 5)。

3 讨论
已有研究报告利用 AGREE II 工具对 24 部 2 型糖尿病临床指南进行评价,结果发现指南整体质量良好,但不同指南间的适用性评分差异较大,24 部指南中仅有 4 部(16.67%)具有较高适用性评分[7, 11-15]。国内 1 项研究同样利用 AGREE II 工具评价了 2 型糖尿病临床指南和专家共识的质量,结果发现临床适用性普遍较差[8]。本次糖尿病指南的临床适用性调查结果显示,糖尿病指南的维度加和评分和总体评价均为良好,表明该指南整体适用性较好。在各维度评分中可接受性最高,可获得性最差,表明临床医生普遍认同并愿意参考指南的推荐意见开展工作,但该指南的宣传和推广有待提高[16, 17]。约 20% 的调查对象此前未接触过本指南,其获取指南的途径主要是来自于学术会议、微信、生物医学文献数据库和专业学术期刊,这提示若要提高指南的可获得性应考虑加强其宣传推广途径,如医疗机构发放、专著或教材、行业学会/协会网站等[18, 19]。
本研究结果显示,对指南的熟悉程度与指南可获得性、可读性、可接受性、可行性、加和总分之间均呈正相关。这提示指南的熟悉程度是影响指南适用性的最重要因素,建议继续推广指南并加强对使用者的培训,以提升指南临床适用性[17]。调查对象的最高学历、工作年限、对指南熟悉程度、医疗机构等级与可行性呈正相关。这表明具备高学历、工作年限长、对指南熟悉、三级医疗机构的医生认为该指南更有可行性[20]。
虽然本指南的可行性评分较高,但仍有 19.3% 的调查对象认为指南存在实施障碍。18.8% 的调查对象认为是医务人员因素,如医务人员缺乏相关知识和技能、医务人员意愿与指南推荐意见不符或不愿改变原诊疗习惯;18.6% 的调查对象认为是患者因素,如患者对指南推荐意见的依从性较差;18.4% 的调查对象认为实施障碍来自于环境因素,如指南推荐的干预措施不在医保的支付范围;14.0% 的调查对象认为是指南因素,如该指南未检索评估本土研究证据。本研究结果提示在对指南进行重新制订和更新时,可从上述几个方面考虑以提高指南的可行性。
本研究建立了指南临床适用性评价的数据分析和结果报告的调查模型,由 7 个部分组成,包括问卷调查情况、调查对象基线特征、指南临床适用性评分、获取指南途径、不同基线特征分组比较、影响因素分析、指南实施影响因素分析。该模型有利于提高结果的可重复性和准确性,加快数据分析过程和标准化结果报告的形式。然而也存在一定的局限性,如可能缺乏对结果的进一步深度分析,如对调查对象的基本特征及指南各维度评分的聚类分析,如发现指南实施障碍主要为环境因素,进一步分析是否与不同地区、不同等级医疗机构有关等。后期可根据标准分析报告结果制订下一步具体的深入分析计划。另外本研究调查地区人数分布不均,可能导致结果的代表性欠佳。
本研究发现糖尿病指南临床适用性整体较好,但可获得性较低,建议加强宣传推广途径,如医疗机构发放、专著或教材、行业学会/协会网站等。此外,本研究建立了指南临床适用性评价的数据分析和结果报告的模型,以保证结果的可重复性和准确性。数据分析报告为指南制/修订者反馈临床适用性评价结果,为指南的制/修订提供数据支持,建议由专业统计团队进行数据分析,适时反馈分析结果,以优化指南制订和更新,整体提升中国临床指南适用性。
糖尿病是 21 世纪全球面临的最严峻健康问题之一。国际糖尿病联合会(International Diabetes Federation,IDF)统计显示[1],截至 2015 年全球糖尿病患者人数为 4.15 亿,成年人中平均每 11 个人就有 1 个是糖尿病患者,非传染性疾病风险因素协作组织(NCD Risk Factor Collaboration,NCD-RisC)的一项研究显示,从 1980 年到 2014 年,全球糖尿病患者的患病率翻了 1 倍,由 1980 年的 4.7% 增长到了 2014 年的 8.5%[2]。40 年来,随着我国人口老龄化与生活方式的变化,糖尿病的患病率呈直线上升趋势,从 1980 年的 0.67% 飙升至 2013 年的 10.4%[3]。自 2016 年 9 月开始,中华医学会糖尿病学分会(Chinese Diabetes Society,CDS)组织了内分泌科、心血管内科、精神心理科、营养学等多学科专家成立指南编写委员会及工作小组,修订完成了《中国 2 型糖尿病防治指南(2017 版)》(以下简称《糖尿病指南》)[4]。该指南制订坚持防治结合的方针,立足中国人群循证医学证据,着眼于临床应用的适用性和实用价值,对于规范临床医疗实践、改善中国糖尿病防控现状起到了重要的指导作用。
但另有研究指出,一些指南难以在临床实践中推广使用,在制订指南时应考虑临床适用性[5, 6]。国内外研究均显示,糖尿病相关指南普遍存在临床适用性差的问题[7, 8]。本研究利用前期制订的指南临床适用性评价工具[9]对该糖尿病指南的使用医师进行了问卷调查,通过分析调查评价结果,为该指南的临床适用性提出修订建议,并据此建立数据分析和结果报告模型,为我国指南适用性评价提供参考依据。
1 资料与方法
1.1 研究对象
课题组分别从东、中、西部地区抽取已开展糖尿病相关诊治工作的医疗机构,每家医疗机构抽取老年科、内分泌科、肾脏科或相关科室医生 6~8 人,其中高级职称 2~3 名、中级职称 2~3 名、初级职称 2 名。调查研究样本量预估为影响因素的 5~20 倍,取 5 倍,失访率 20%,最小样本量 80 例[10]。
1.2 调查工具
指南临床适用性评价问卷由 2 部分构成:① 调查对象基本信息:年龄、地区、学历、人员类别、职称、机构性质、机构等级、利益冲突说明等。② 评分量表:由 12 个条目(Q1~Q12)构成,前 10 个条目可分为 4 个维度,包括可获得性、可读性、可接受性和可行性,Q11 是总体评价,Q12 是 1 个开放性问题,收集提高指南适用性的建议。漏答 3 题以上的问卷视为无效问卷。
1.3 调查方法
在西安、长沙、海口三地组织指南临床适用性评价的研讨会,由当地卫健委抽调相应医院召集医师代表参会,以当地医院为主,同时覆盖周边城市医院。参会者阅读指南后填写指南临床适用性评价问卷,未到现场的医师通过在线填写电子问卷。
1.4 统计分析
问卷回收后,由 2 位研究人员采用 Epidata 软件对数据进行录入,并双向比对录入后的数据,不一致的数据由第三位研究人员查阅原始问卷确认。电子问卷完成后直接从网上导出数据。采用 R 软件和 SAS 软件进行统计分析。采用均数、标准差、中位数、四分位数间距指标描述性分析计量资料的总评分和各维度评分;采用率、构成比等指标描述性分析计数资料中获取指南途径和影响指南实施主要因素。多组比较前进行资料正态性检验和方差齐性检验,若资料服从正态分布且满足方差齐性则采用方差分析(ANOVA)进行多组比较,如多组间存在统计学差异则进一步采用Student-Newman-Keuls(SNK)方法进行组间两两比较;若资料不服从正态分布或不满足方差齐性,则采用 Kruskal-Wallis(K-W)秩和检验和 Nemenyi 检验进行多组比较和两两比较。采用多重线性回归方法并结合逐步回归筛选出各评分的影响因素。若不满足多重线性回归使用条件,则对数据进行转换,采用有序 logistic 回归进行影响因素分析。假设检验采用双侧检验,检验水准 α=0.05。
2 结果
2.1 问卷调查情况
本次调查共收集问卷 725 份,现场填写回收率 100%。剔除不符合标准的 3 份问卷,有效问卷 722 份,有效回收率 99.6%。
2.2 受调查者的基线特征
本研究的调查对象来自于医疗机构内分泌科、肾内科和老年科的医生,平均工作年限为 10.8 年。受调查者的基本特征见表 1。

2.3 指南临床适用性评分
根据正态性检验结果及比较均数和中位数判断,各评分结果不服从正态分布,故以中位数和四分位数描述评分集中和离散趋势。结果显示可获得性评分最低,可接受性评分最高(表 2)。组内相关系数(ICC)评价结果显示,各维度加和评分与总体评价的得分一致[ICC=0.687,95%CI(0.638,0.729),P<0.001]。

2.4 获取指南途径
指南获取途径前 3 位为:学术会议(52.1%)、微信(45.4%)和生物医学文献数据库(43.5%)(图 1)。

2.5 不同基线特征分组比较
按调查对象的不同基线特征进行分组比较,包括年龄、地区、最高学历、职称、专业领域、首次接触本指南时间、对指南熟悉程度、医疗机构性质、医疗机构级别和利益声明。各组别的分组依据见表 1。由于各分组评分不服从正态分布,因此采用非参数秩和检验方法进行组间比较。① 可获得性评分多组比较结果显示:各年龄、职称、专业领域、医疗机构级别、接触指南的时间、指南熟悉程度的可获得性评分差异有统计学意义(P<0.05)。② 可读性评分多组比较结果显示:最高学历、接触本指南的时间、对指南熟悉程度的可读性评分差异均有统计学意义(P<0.05)。③ 可接受性评分多组比较结果显示:各地区、各专业领域、接触本指南的时间、对指南熟悉程度的可接受性评分差异有统计学意义(P<0.05)。④ 可行性评分多组比较结果显示:各年龄、各学历、各职称、各医疗机构级别、接触本指南的时间、对指南熟悉程度的可行性评分差异有统计学意义(P<0.05)。⑤ 各维度加和总分多组比较结果显示:不同地区、最高学历、职称、专业领域、医疗机构级别、接触本指南时间、对指南熟悉程度的加和总分差异有统计学意义(P<0.05)(表 3)。

2.6 影响因素分析
以可获得性、可读性、可接受性、可行性、各维度评分加和总分和总体评价作为因变量,以调查对象的基线特征(年龄、地区、最高学历、职称等)作为自变量构建回归方程,结合逐步回归方法进行影响因素分析。结果显示:① 可获得性评分:首次接触指南时间、对指南熟悉程度、医疗机构级别是可获得性评分的影响因素(P<0.05)。首次接触指南时间越早、对指南熟悉程度越高的可获得性评分越高;三级医疗机构的可获得性高于二级医疗机构。② 可读性评分:对指南熟悉程度是可读性评分的影响因素(P<0.05)。对指南熟悉程度越高的可读性评分越高。③ 可接受性评分:年龄、地区、对指南熟悉程度是可接受性评分的影响因素(P<0.05)。年龄越大的医生可接受性评分越低,东部、中部地区的医生可接受性评分高于西部,对指南熟悉程度越高的医生可接受性评分越高。④ 可行性评分:年龄、最高学历、工作年限、对指南熟悉程度、医疗机构等级是可行性评分影响因素(P<0.05)。年龄越大的医生可行性评分越低;学历越高、工作年限越长、对指南熟悉程度越高、医疗机构等级越高的医生可行性评分越高。⑤ 各维度加和总分:年龄、最高学历、工作年限、对指南熟悉程度和医疗机构级别是各维度加和总分的影响因素(P<0.05)。年龄越大的医生各维度加和总分越低;学历越高、工作年限越长、对指南熟悉程度越高、医疗机构级别越高的医生各维度加和总分越高。⑥ 总体评价:对指南熟悉程度是总体评价的影响因素(P<0.05),对指南熟悉程度越高的总体评价越高(表 4)。

2.7 指南实施影响因素分析
在 722 名调查对象中,认为指南存在实施障碍的有 139 名(19.3%)。在这些调查对象中,认为实施障碍为医务人员因素的有 136 名(97.8%),其中患者因素 134 名(96.4%),环境因素 133 名(95.7%),指南因素 101 名(72.7%)(表 5)。

3 讨论
已有研究报告利用 AGREE II 工具对 24 部 2 型糖尿病临床指南进行评价,结果发现指南整体质量良好,但不同指南间的适用性评分差异较大,24 部指南中仅有 4 部(16.67%)具有较高适用性评分[7, 11-15]。国内 1 项研究同样利用 AGREE II 工具评价了 2 型糖尿病临床指南和专家共识的质量,结果发现临床适用性普遍较差[8]。本次糖尿病指南的临床适用性调查结果显示,糖尿病指南的维度加和评分和总体评价均为良好,表明该指南整体适用性较好。在各维度评分中可接受性最高,可获得性最差,表明临床医生普遍认同并愿意参考指南的推荐意见开展工作,但该指南的宣传和推广有待提高[16, 17]。约 20% 的调查对象此前未接触过本指南,其获取指南的途径主要是来自于学术会议、微信、生物医学文献数据库和专业学术期刊,这提示若要提高指南的可获得性应考虑加强其宣传推广途径,如医疗机构发放、专著或教材、行业学会/协会网站等[18, 19]。
本研究结果显示,对指南的熟悉程度与指南可获得性、可读性、可接受性、可行性、加和总分之间均呈正相关。这提示指南的熟悉程度是影响指南适用性的最重要因素,建议继续推广指南并加强对使用者的培训,以提升指南临床适用性[17]。调查对象的最高学历、工作年限、对指南熟悉程度、医疗机构等级与可行性呈正相关。这表明具备高学历、工作年限长、对指南熟悉、三级医疗机构的医生认为该指南更有可行性[20]。
虽然本指南的可行性评分较高,但仍有 19.3% 的调查对象认为指南存在实施障碍。18.8% 的调查对象认为是医务人员因素,如医务人员缺乏相关知识和技能、医务人员意愿与指南推荐意见不符或不愿改变原诊疗习惯;18.6% 的调查对象认为是患者因素,如患者对指南推荐意见的依从性较差;18.4% 的调查对象认为实施障碍来自于环境因素,如指南推荐的干预措施不在医保的支付范围;14.0% 的调查对象认为是指南因素,如该指南未检索评估本土研究证据。本研究结果提示在对指南进行重新制订和更新时,可从上述几个方面考虑以提高指南的可行性。
本研究建立了指南临床适用性评价的数据分析和结果报告的调查模型,由 7 个部分组成,包括问卷调查情况、调查对象基线特征、指南临床适用性评分、获取指南途径、不同基线特征分组比较、影响因素分析、指南实施影响因素分析。该模型有利于提高结果的可重复性和准确性,加快数据分析过程和标准化结果报告的形式。然而也存在一定的局限性,如可能缺乏对结果的进一步深度分析,如对调查对象的基本特征及指南各维度评分的聚类分析,如发现指南实施障碍主要为环境因素,进一步分析是否与不同地区、不同等级医疗机构有关等。后期可根据标准分析报告结果制订下一步具体的深入分析计划。另外本研究调查地区人数分布不均,可能导致结果的代表性欠佳。
本研究发现糖尿病指南临床适用性整体较好,但可获得性较低,建议加强宣传推广途径,如医疗机构发放、专著或教材、行业学会/协会网站等。此外,本研究建立了指南临床适用性评价的数据分析和结果报告的模型,以保证结果的可重复性和准确性。数据分析报告为指南制/修订者反馈临床适用性评价结果,为指南的制/修订提供数据支持,建议由专业统计团队进行数据分析,适时反馈分析结果,以优化指南制订和更新,整体提升中国临床指南适用性。