• 电子科技大学生命科学与技术学院(成都 610051);
导出 下载 收藏 扫码 引用

目的  基于深度学习算法 BERT 进行特征表示和文本分类,实现对随机对照试验(RCT)文献的自动化偏倚风险评价。 方法  计算机检索 Cochrane 图书馆,收集 RCT 相关信息并获取偏倚风险评价数据,据此构建文本分类所需数据集。采用 BERT 进行特征提取,构建文本分类模型,完成 7 类偏倚风险值(高、低)的评价。将原始数据集的 80% 作为训练集,10% 作为测试集,10% 作为验证集。采用准确率(P 值)、召回率(R 值)和 F1 值评价模型的性能,并将所得结果与传统机器学习方法(结合 n-gram 与 TF-IDF 的特征工程方法和 LinearSVM 分类器)结果进行比较。 结果  该模型在 7 类偏倚风险值评价任务上取得 78.5%~95.2% 的 F1 值,较传统机器学习方法高 14.7%。在除“其它偏倚”外的其它 6 类偏倚描述句的提取任务上取得 85.7%~92.8% 的 F1 值,较机器学习方法高 18.2%。 结论  基于 BERT 的自动化偏倚风险评价模型能够实现对 RCT 文献较高准确率的自动化偏倚风险评价,提高完成系统评价的效率和速度。