[编辑]
大规模数据学习的随机决策哈希
第四届大数据、流数据和异构源挖掘国际研讨会:算法、系统、编程模型和应用, PMLR 41:65-80, 2015.
摘要
在大数据时代,大多数传统学习算法的迭代特性使其在处理大规模学习问题时效率越来越低。随机决策树算法是一种高效且不错的学习算法,但树结构的复杂性使其在处理大数据问题时效率低下。受随机决策树理论分析的启发,我们提出了一种基于无监督局部敏感哈希的大数据分类算法。我们的算法本质上是非迭代的,非常灵活地部署在机器集群上,因此能够有效地处理大型数据集。在真实数据集上的实验表明,该算法可以轻松扩展到数百万个数据样本和特征,同时在准确性和效率方面分别提高了最多 17% 和 800%,且内存消耗适中,优于现有算法。