[编辑]
基于广义线性模型的上下文 Bandit 算法的无偏离线评估
在线探索与利用交易研讨会 2 论文集,PMLR 26:19-36,2012。
摘要
上下文 Bandit 算法已成为在线推荐和广告系统中的常用工具。\emph离线评估这些应用中新算法的有效性对于保护在线用户体验至关重要,但由于其“部分标签”性质,这极具挑战性。一种常见做法是创建一个模拟器,模拟针对手头问题在线环境,然后针对该模拟器运行算法。然而,创建模拟器本身通常很困难,并且建模偏差通常不可避免。本文的目的有两个。首先,我们回顾了一种最近提出的\emph离线评估技术。与基于模拟器的方法不同,该方法完全由数据驱动,易于适应不同的应用,更重要的是,提供可证明的无偏评估。我们认为在实际问题中比较 Bandit 算法时,应广泛采用该技术作为标准做法。其次,作为该技术的一个应用,我们比较并验证了基于\emph广义线性模型的一些新算法。使用真实的 Yahoo! 数据进行的实验表明,当奖励为二元时,与使用线性模型的算法相比,有显著改进。