[编辑]
COVID-19文本中的生物医学命名实体识别
医疗人工智能与COVID-19第一届研讨会论文集, ICML 2022, PMLR 184:117-126, 2022.
摘要
最先进的生物医学命名实体识别任务面临一些挑战:首先,这些方法是在较少数量的临床实体(例如,疾病、症状、蛋白质、基因)上训练的;其次,这些方法需要大量数据进行预训练和预测,使其难以在实时场景中实施;第三,这些方法没有考虑健康决定因素(年龄、性别、就业、种族)等非临床实体,这些实体也与患者的健康相关。我们提出了一种机器学习 (ML) 流程,通过以下三个方面改进了之前的努力:首先,它可以识别许多临床实体类型(疾病、症状、药物、诊断等);其次,该流程易于配置、可重用并且可以扩展以进行训练和推理;第三,它考虑了与患者健康相关的非临床因素。从高层来看,该流程由以下阶段组成:预处理、分词、嵌入查找和命名实体识别任务。我们还展示了一个新的数据集,我们通过整理 COVID-19 病例报告来准备该数据集。所提出的方法在四个基准数据集上优于基线方法,宏观和微观平均 F1 分数约为 90,并且使用我们的数据集,宏观和微观平均 F1 分数分别为 95.25 和 93.18。