[编辑]
使用解毒数据进行公平聚类
因果关系和鲁棒性视角下的算法公平性会议论文集,PMLR 171:19-39,2022。
摘要
聚类算法被广泛应用于许多现代数据科学应用。这促使人们需要使聚类算法的输出更加公平。传统上,针对特定的公平性概念,会开发新的公平算法变体用于聚类算法。然而,根据应用场景的不同,可能需要采用不同的公平性定义。因此,需要为每种聚类算法和公平性定义的组合提出新的算法和分析。此外,每个新算法都需要重新实现才能部署到实际系统中。因此,我们提出了一种受数据中毒攻击研究启发的、针对基于中心的聚类进行组级别公平性的替代方法。我们试图通过少量数据点(称为解毒数据)来扩充原始数据集。当在新数据集上进行聚类时,输出对于所选的聚类算法和公平性定义是公平的。我们将此问题形式化为一个通用的双层优化问题,该问题可以容纳任何基于中心的聚类算法和公平性概念。然后,我们将解决此双层优化问题的方法分为两种不同的问题设置。在不同的聚类算法和公平性概念上进行的广泛实验表明,我们的算法可以通过添加少量解毒数据在许多真实世界的数据集上实现期望的公平性水平。我们还发现,与其他最先进的公平聚类算法相比,我们的算法实现了更低的公平性成本和具有竞争力的聚类性能。