[编辑]
基于平衡随机集的 imbalanced 营销数据分类
KDD-Cup 2009 竞赛论文集, PMLR 7:89-100, 2009.
摘要
对于 imbalanced 数据,使用所有数据构建的分类器往往会忽略少数类。为了克服这个问题,我们提出使用基于大量相对较小且平衡的子集构建的集成分类器,其中从两种模式中随机选择代表。作为结果,系统生成线性回归系数矩阵,其行代表随机子集,列代表特征。基于该矩阵,我们评估特定特征影响的稳定性。建议仅将具有稳定影响的特征保留在模型中。最终模型代表基础学习器的平均值,不一定是线性回归。适当的数据预处理对于整个系统的有效性非常重要,建议将原始数据简化为最简单的二进制稀疏格式,这对于构建决策树特别方便。因此,任何特定特征都将由几个二进制变量或 bin 表示,在数据结构方面完全等效。此属性非常重要,可用于特征选择。所提出的方法不仅利用了特定变量对基础学习器的贡献,还利用了这些贡献的多样性。展示了针对 KDD-2009 竞赛数据集的测试结果。