[编辑]
基于ML的上下文分析的词汇复杂度预测
英国人工智能会议论文集 2024, PMLR 295:53-61, 2025.
摘要
本文对两种使用上下文句子信息预测词汇复杂度的方案进行了比较评估,而传统方法通常难以解决这一挑战。这项工作探索了两种不同的方法。第一种方法将XLNet词嵌入与随机森林分类器相结合,以处理句子和词嵌入,从而预测复杂度等级。第二种方法采用双向Transformer编码器表示(BERT)模型,该模型由两个独立的模型组成:一个用于句子级别的复杂度,另一个用于词汇级别的复杂度,它们的预测结果结合以获得更具上下文敏感性的结果。使用涵盖宗教、生物医学和议会文本等领域的多样化数据集,该数据集预先分为五个复杂度等级(非常简单、简单、中等、困难、非常困难)。为了确保类别表示的平衡,应用了数据增强技术。评估指标表明,基于XLNet的模型在性能上略优于双BERT方法,宏平均F1分数达到0.79,尤其擅长识别高度复杂的词汇(F1分数=0.95)。相比之下,双BERT的宏平均F1分数等于0.78。