基于平衡随机集的 imbalanced 营销数据分类

Vladimir Nikulin, Geoffrey J. McLachlan
KDD-Cup 2009 竞赛论文集, PMLR 7:89-100, 2009.

摘要

对于 imbalanced 数据,使用所有数据构建的分类器往往会忽略少数类。为了克服这个问题,我们提出使用基于大量相对较小且平衡的子集构建的集成分类器,其中从两种模式中随机选择代表。作为结果,系统生成线性回归系数矩阵,其行代表随机子集,列代表特征。基于该矩阵,我们评估特定特征影响的稳定性。建议仅将具有稳定影响的特征保留在模型中。最终模型代表基础学习器的平均值,不一定是线性回归。适当的数据预处理对于整个系统的有效性非常重要,建议将原始数据简化为最简单的二进制稀疏格式,这对于构建决策树特别方便。因此,任何特定特征都将由几个二进制变量或 bin 表示,在数据结构方面完全等效。此属性非常重要,可用于特征选择。所提出的方法不仅利用了特定变量对基础学习器的贡献,还利用了这些贡献的多样性。展示了针对 KDD-2009 竞赛数据集的测试结果。

引用本文


BibTeX
@InProceedings{pmlr-v7-nikulin09, title = {基于平衡随机集的 imbalanced 营销数据分类}, author = {Nikulin, Vladimir and McLachlan, Geoffrey J.}, booktitle = {KDD-Cup 2009 竞赛论文集}, pages = {89--100}, year = {2009}, editor = {Dror, Gideon and Boullé, Mar and Guyon, Isabelle and Lemaire, Vincent and Vogel, David}, volume = {7}, series = {机器学习研究论文集}, address = {New York, New York, USA}, month = {28 Jun}, publisher = {PMLR}, pdf = {https://pmlr.com.cn/v7/nikulin09/nikulin09.pdf}, url = {https://pmlr.com.cn/v7/nikulin09.html}, abstract = {对于 imbalanced 数据,使用所有数据构建的分类器往往会忽略少数类。为了克服这个问题,我们提出使用基于大量相对较小且平衡的子集构建的集成分类器,其中从两种模式中随机选择代表。作为结果,系统生成线性回归系数矩阵,其行代表随机子集,列代表特征。基于该矩阵,我们评估特定特征影响的稳定性。建议仅将具有稳定影响的特征保留在模型中。最终模型代表基础学习器的平均值,不一定是线性回归。适当的数据预处理对于整个系统的有效性非常重要,建议将原始数据简化为最简单的二进制稀疏格式,这对于构建决策树特别方便。因此,任何特定特征都将由几个二进制变量或 bin 表示,在数据结构方面完全等效。此属性非常重要,可用于特征选择。所提出的方法不仅利用了特定变量对基础学习器的贡献,还利用了这些贡献的多样性。展示了针对 KDD-2009 竞赛数据集的测试结果。} }
Endnote
%0 会议论文 %T 基于平衡随机集的 imbalanced 营销数据分类 %A Vladimir Nikulin %A Geoffrey J. McLachlan %B KDD-Cup 2009 竞赛论文集 %C 机器学习研究论文集 %D 2009 %E Gideon Dror %E Mar Boullé %E Isabelle Guyon %E Vincent Lemaire %E David Vogel %F pmlr-v7-nikulin09 %I PMLR %P 89--100 %U https://pmlr.com.cn/v7/nikulin09.html %V 7 %X 对于 imbalanced 数据,使用所有数据构建的分类器往往会忽略少数类。为了克服这个问题,我们提出使用基于大量相对较小且平衡的子集构建的集成分类器,其中从两种模式中随机选择代表。作为结果,系统生成线性回归系数矩阵,其行代表随机子集,列代表特征。基于该矩阵,我们评估特定特征影响的稳定性。建议仅将具有稳定影响的特征保留在模型中。最终模型代表基础学习器的平均值,不一定是线性回归。适当的数据预处理对于整个系统的有效性非常重要,建议将原始数据简化为最简单的二进制稀疏格式,这对于构建决策树特别方便。因此,任何特定特征都将由几个二进制变量或 bin 表示,在数据结构方面完全等效。此属性非常重要,可用于特征选择。所提出的方法不仅利用了特定变量对基础学习器的贡献,还利用了这些贡献的多样性。展示了针对 KDD-2009 竞赛数据集的测试结果。
RIS
TY - CPAPER TI - 基于平衡随机集的 imbalanced 营销数据分类 AU - Vladimir Nikulin AU - Geoffrey J. McLachlan BT - KDD-Cup 2009 竞赛论文集 DA - 2009/12/04 ED - Gideon Dror ED - Mar Boullé ED - Isabelle Guyon ED - Vincent Lemaire ED - David Vogel ID - pmlr-v7-nikulin09 PB - PMLR DP - 机器学习研究论文集 VL - 7 SP - 89 EP - 100 L1 - https://pmlr.com.cn/v7/nikulin09/nikulin09.pdf UR - https://pmlr.com.cn/v7/nikulin09.html AB - 对于 imbalanced 数据,使用所有数据构建的分类器往往会忽略少数类。为了克服这个问题,我们提出使用基于大量相对较小且平衡的子集构建的集成分类器,其中从两种模式中随机选择代表。作为结果,系统生成线性回归系数矩阵,其行代表随机子集,列代表特征。基于该矩阵,我们评估特定特征影响的稳定性。建议仅将具有稳定影响的特征保留在模型中。最终模型代表基础学习器的平均值,不一定是线性回归。适当的数据预处理对于整个系统的有效性非常重要,建议将原始数据简化为最简单的二进制稀疏格式,这对于构建决策树特别方便。因此,任何特定特征都将由几个二进制变量或 bin 表示,在数据结构方面完全等效。此属性非常重要,可用于特征选择。所提出的方法不仅利用了特定变量对基础学习器的贡献,还利用了这些贡献的多样性。展示了针对 KDD-2009 竞赛数据集的测试结果。 ER -
APA
Nikulin, V. & McLachlan, G.J.. (2009). 基于平衡随机集的 imbalanced 营销数据分类. KDD-Cup 2009 竞赛论文集, in 机器学习研究论文集 7:89-100 可从 https://pmlr.com.cn/v7/nikulin09.html 获取.

相关材料