COVID-19文本中的生物医学命名实体识别

Shaina Raza, Brian Schwartz
医疗人工智能与COVID-19第一届研讨会论文集, ICML 2022, PMLR 184:117-126, 2022.

摘要

最先进的生物医学命名实体识别任务面临一些挑战:首先,这些方法是在较少数量的临床实体(例如,疾病、症状、蛋白质、基因)上训练的;其次,这些方法需要大量数据进行预训练和预测,使其难以在实时场景中实施;第三,这些方法没有考虑健康决定因素(年龄、性别、就业、种族)等非临床实体,这些实体也与患者的健康相关。我们提出了一种机器学习 (ML) 流程,通过以下三个方面改进了之前的努力:首先,它可以识别许多临床实体类型(疾病、症状、药物、诊断等);其次,该流程易于配置、可重用并且可以扩展以进行训练和推理;第三,它考虑了与患者健康相关的非临床因素。从高层来看,该流程由以下阶段组成:预处理、分词、嵌入查找和命名实体识别任务。我们还展示了一个新的数据集,我们通过整理 COVID-19 病例报告来准备该数据集。所提出的方法在四个基准数据集上优于基线方法,宏观和微观平均 F1 分数约为 90,并且使用我们的数据集,宏观和微观平均 F1 分数分别为 95.25 和 93.18。

引用本文


BibTeX
@InProceedings{pmlr-v184-raza22a, title = {COVID-19文本中的生物医学命名实体识别}, author = {Raza, Shaina and Schwartz, Brian}, booktitle = {医疗人工智能与COVID-19第一届研讨会论文集, ICML 2022}, pages = {117--126}, year = {2022}, editor = {Xu, Peng and Zhu, Tingting and Zhu, Pengkai and Clifton, David A. and Belgrave, Danielle and Zhang, Yuanting}, volume = {184}, series = {机器学习研究论文集}, month = {22 Jul}, publisher = {PMLR}, pdf = {https://pmlr.com.cn/v184/raza22a/raza22a.pdf}, url = {https://pmlr.com.cn/v184/raza22a.html}, abstract = {最先进的生物医学命名实体识别任务面临一些挑战:首先,这些方法是在较少数量的临床实体(例如,疾病、症状、蛋白质、基因)上训练的;其次,这些方法需要大量数据进行预训练和预测,使其难以在实时场景中实施;第三,这些方法没有考虑健康决定因素(年龄、性别、就业、种族)等非临床实体,这些实体也与患者的健康相关。我们提出了一种机器学习 (ML) 流程,通过以下三个方面改进了之前的努力:首先,它可以识别许多临床实体类型(疾病、症状、药物、诊断等);其次,该流程易于配置、可重用并且可以扩展以进行训练和推理;第三,它考虑了与患者健康相关的非临床因素。从高层来看,该流程由以下阶段组成:预处理、分词、嵌入查找和命名实体识别任务。我们还展示了一个新的数据集,我们通过整理 COVID-19 病例报告来准备该数据集。所提出的方法在四个基准数据集上优于基线方法,宏观和微观平均 F1 分数约为 90,并且使用我们的数据集,宏观和微观平均 F1 分数分别为 95.25 和 93.18。} }
Endnote
%0 会议论文 %T COVID-19文本中的生物医学命名实体识别 %A Shaina Raza %A Brian Schwartz %B 医疗人工智能与COVID-19第一届研讨会论文集, ICML 2022 %C 机器学习研究论文集 %D 2022 %E Peng Xu %E Tingting Zhu %E Pengkai Zhu %E David A. Clifton %E Danielle Belgrave %E Yuanting Zhang %F pmlr-v184-raza22a %I PMLR %P 117--126 %U https://pmlr.com.cn/v184/raza22a.html %V 184 %X 最先进的生物医学命名实体识别任务面临一些挑战:首先,这些方法是在较少数量的临床实体(例如,疾病、症状、蛋白质、基因)上训练的;其次,这些方法需要大量数据进行预训练和预测,使其难以在实时场景中实施;第三,这些方法没有考虑健康决定因素(年龄、性别、就业、种族)等非临床实体,这些实体也与患者的健康相关。我们提出了一种机器学习 (ML) 流程,通过以下三个方面改进了之前的努力:首先,它可以识别许多临床实体类型(疾病、症状、药物、诊断等);其次,该流程易于配置、可重用并且可以扩展以进行训练和推理;第三,它考虑了与患者健康相关的非临床因素。从高层来看,该流程由以下阶段组成:预处理、分词、嵌入查找和命名实体识别任务。我们还展示了一个新的数据集,我们通过整理 COVID-19 病例报告来准备该数据集。所提出的方法在四个基准数据集上优于基线方法,宏观和微观平均 F1 分数约为 90,并且使用我们的数据集,宏观和微观平均 F1 分数分别为 95.25 和 93.18。
APA
Raza, S. & Schwartz, B.. (2022). COVID-19文本中的生物医学命名实体识别. 医疗人工智能与COVID-19第一届研讨会论文集, ICML 2022, in 机器学习研究论文集 184:117-126 可从 https://pmlr.com.cn/v184/raza22a.html 获取.

相关材料