大规模数据学习的随机决策哈希

张夏天,范伟,杜楠
第四届大数据、流数据和异构源挖掘国际研讨会:算法、系统、编程模型和应用, PMLR 41:65-80, 2015.

摘要

在大数据时代,大多数传统学习算法的迭代特性使其在处理大规模学习问题时效率越来越低。随机决策树算法是一种高效且不错的学习算法,但树结构的复杂性使其在处理大数据问题时效率低下。受随机决策树理论分析的启发,我们提出了一种基于无监督局部敏感哈希的大数据分类算法。我们的算法本质上是非迭代的,非常灵活地部署在机器集群上,因此能够有效地处理大型数据集。在真实数据集上的实验表明,该算法可以轻松扩展到数百万个数据样本和特征,同时在准确性和效率方面分别提高了最多 17% 和 800%,且内存消耗适中,优于现有算法。

引用本文


BibTeX
@InProceedings{pmlr-v41-zhang15, title = {大规模数据学习的随机决策哈希}, author = {张夏天 and 范伟 and 杜楠}, booktitle = {第四届大数据、流数据和异构源挖掘国际研讨会:算法、系统、编程模型和应用}, pages = {65--80}, year = {2015}, editor = {范伟 and Bifet, Albert and 杨强 and Yu, Philip S.}, volume = {41}, series = {机器学习研究会议论文集}, month = {10 Aug}, publisher = {PMLR}, pdf = {https://pmlr.com.cn/v41/zhang15.pdf}, url = {https://pmlr.com.cn/v41/zhang15.html}, abstract = {在大数据时代,大多数传统学习算法的迭代特性使其在处理大规模学习问题时效率越来越低。随机决策树算法是一种高效且不错的学习算法,但树结构的复杂性使其在处理大数据问题时效率低下。受随机决策树理论分析的启发,我们提出了一种基于无监督局部敏感哈希的大数据分类算法。我们的算法本质上是非迭代的,非常灵活地部署在机器集群上,因此能够有效地处理大型数据集。在真实数据集上的实验表明,该算法可以轻松扩展到数百万个数据样本和特征,同时在准确性和效率方面分别提高了最多 17% 和 800%,且内存消耗适中,优于现有算法.} }
Endnote
%0 会议论文 %T 大规模数据学习的随机决策哈希 %A 张夏天 %A 范伟 %A 杜楠 %B 第四届大数据、流数据和异构源挖掘国际研讨会:算法、系统、编程模型和应用 %C 机器学习研究会议论文集 %D 2015 %E 范伟 %E Albert Bifet %E 杨强 %E Philip S. Yu %F pmlr-v41-zhang15 %I PMLR %P 65--80 %U https://pmlr.com.cn/v41/zhang15.html %V 41 %X 大数据时代,大多数传统学习算法的迭代特性使其在处理大规模学习问题时效率越来越低。随机决策树算法是一种高效且不错的学习算法,但树结构的复杂性使其在处理大数据问题时效率低下。受随机决策树理论分析的启发,我们提出了一种基于无监督局部敏感哈希的大数据分类算法。我们的算法本质上是非迭代的,非常灵活地部署在机器集群上,因此能够有效地处理大型数据集。在真实数据集上的实验表明,该算法可以轻松扩展到数百万个数据样本和特征,同时在准确性和效率方面分别提高了最多 17% 和 800%,且内存消耗适中,优于现有算法。
RIS
TY - CPAPER TI - 大规模数据学习的随机决策哈希 AU - 张夏天 AU - 范伟 AU - 杜楠 BT - 第四届大数据、流数据和异构源挖掘国际研讨会:算法、系统、编程模型和应用 DA - 2015/08/31 ED - 范伟 ED - Albert Bifet ED - 杨强 ED - Philip S. Yu ID - pmlr-v41-zhang15 PB - PMLR DP - 机器学习研究会议论文集 VL - 41 SP - 65 EP - 80 L1 - https://pmlr.com.cn/v41/zhang15.pdf UR - https://pmlr.com.cn/v41/zhang15.html AB - 大数据时代,大多数传统学习算法的迭代特性使其在处理大规模学习问题时效率越来越低。随机决策树算法是一种高效且不错的学习算法,但树结构的复杂性使其在处理大数据问题时效率低下。受随机决策树理论分析的启发,我们提出了一种基于无监督局部敏感哈希的大数据分类算法。我们的算法本质上是非迭代的,非常灵活地部署在机器集群上,因此能够有效地处理大型数据集。在真实数据集上的实验表明,该算法可以轻松扩展到数百万个数据样本和特征,同时在准确性和效率方面分别提高了最多 17% 和 800%,且内存消耗适中,优于现有算法。 ER -
APA
张,夏天,范,伟,& 杜,楠. (2015). 大规模数据学习的随机决策哈希. 第四届大数据、流数据和异构源挖掘国际研讨会:算法、系统、编程模型和应用, in 机器学习研究会议论文集 41:65-80 可从 https://pmlr.com.cn/v41/zhang15.html 获取.

相关材料