基于广义线性模型的上下文 Bandit 算法的无偏离线评估

李丽红,楚伟,Langford John,Moon Taesup,王宣辉
在线探索与利用交易研讨会 2 论文集,PMLR 26:19-36,2012。

摘要

上下文 Bandit 算法已成为在线推荐和广告系统中的常用工具。\emph离线评估这些应用中新算法的有效性对于保护在线用户体验至关重要,但由于其“部分标签”性质,这极具挑战性。一种常见做法是创建一个模拟器,模拟针对手头问题在线环境,然后针对该模拟器运行算法。然而,创建模拟器本身通常很困难,并且建模偏差通常不可避免。本文的目的有两个。首先,我们回顾了一种最近提出的\emph离线评估技术。与基于模拟器的方法不同,该方法完全由数据驱动,易于适应不同的应用,更重要的是,提供可证明的无偏评估。我们认为在实际问题中比较 Bandit 算法时,应广泛采用该技术作为标准做法。其次,作为该技术的一个应用,我们比较并验证了基于\emph广义线性模型的一些新算法。使用真实的 Yahoo! 数据进行的实验表明,当奖励为二元时,与使用线性模型的算法相比,有显著改进。

引用本文


BibTeX
@InProceedings{pmlr-v26-li12a, title = {基于广义线性模型的上下文 Bandit 算法的无偏离线评估}, author = {李丽红 and 楚伟 and Langford, John and Moon, Taesup and 王宣辉}, booktitle = {在线探索与利用交易研讨会 2 论文集}, pages = {19--36}, year = {2012}, editor = {Glowacka, Dorota and Dorard, Louis and Shawe-Taylor, John}, volume = {26}, series = {机器学习研究论文集}, address = {美国华盛顿州贝尔维尤}, month = {07月02日}, publisher = {PMLR}, pdf = {https://pmlr.com.cn/v26/li12a/li12a.pdf}, url = {https://pmlr.com.cn/v26/li12a.html}, abstract = {上下文 Bandit 算法已成为在线推荐和广告系统中的常用工具。\emph离线评估这些应用中新算法的有效性对于保护在线用户体验至关重要,但由于其“部分标签”性质,这极具挑战性。一种常见做法是创建一个模拟器,模拟针对手头问题在线环境,然后针对该模拟器运行算法。然而,创建模拟器本身通常很困难,并且建模偏差通常不可避免。本文的目的有两个。首先,我们回顾了一种最近提出的\emph离线评估技术。与基于模拟器的方法不同,该方法完全由数据驱动,易于适应不同的应用,更重要的是,提供可证明的无偏评估。我们认为在实际问题中比较 Bandit 算法时,应广泛采用该技术作为标准做法。其次,作为该技术的一个应用,我们比较并验证了基于\emph广义线性模型的一些新算法。使用真实的 Yahoo! 数据进行的实验表明,当奖励为二元时,与使用线性模型的算法相比,有显著改进。} }
Endnote
%0 会议论文 %T 基于广义线性模型的上下文 Bandit 算法的无偏离线评估 %A 李丽红 %A 楚伟 %A Langford John %A Moon Taesup %A 王宣辉 %B 在线探索与利用交易研讨会 2 论文集 %C 机器学习研究论文集 %D 2012 %E Dorota Glowacka %E Louis Dorard %E John Shawe-Taylor %F pmlr-v26-li12a %I PMLR %P 19--36 %U https://pmlr.com.cn/v26/li12a.html %V 26 %X 上下文 Bandit 算法已成为在线推荐和广告系统中的常用工具。\emph离线评估这些应用中新算法的有效性对于保护在线用户体验至关重要,但由于其“部分标签”性质,这极具挑战性。一种常见做法是创建一个模拟器,模拟针对手头问题在线环境,然后针对该模拟器运行算法。然而,创建模拟器本身通常很困难,并且建模偏差通常不可避免。本文的目的有两个。首先,我们回顾了一种最近提出的\emph离线评估技术。与基于模拟器的方法不同,该方法完全由数据驱动,易于适应不同的应用,更重要的是,提供可证明的无偏评估。我们认为在实际问题中比较 Bandit 算法时,应广泛采用该技术作为标准做法。其次,作为该技术的一个应用,我们比较并验证了基于\emph广义线性模型的一些新算法。使用真实的 Yahoo! 数据进行的实验表明,当奖励为二元时,与使用线性模型的算法相比,有显著改进。
RIS
TY - CPAPER TI - 基于广义线性模型的上下文 Bandit 算法的无偏离线评估 AU - 李丽红 AU - 楚伟 AU - Langford John AU - Moon Taesup AU - 王宣辉 BT - 在线探索与利用交易研讨会 2 论文集 DA - 2012/05/02 ED - Dorota Glowacka ED - Louis Dorard ED - John Shawe-Taylor ID - pmlr-v26-li12a PB - PMLR DP - 机器学习研究论文集 VL - 26 SP - 19 EP - 36 L1 - https://pmlr.com.cn/v26/li12a/li12a.pdf UR - https://pmlr.com.cn/v26/li12a.html AB - 上下文 Bandit 算法已成为在线推荐和广告系统中的常用工具。\emph离线评估这些应用中新算法的有效性对于保护在线用户体验至关重要,但由于其“部分标签”性质,这极具挑战性。一种常见做法是创建一个模拟器,模拟针对手头问题在线环境,然后针对该模拟器运行算法。然而,创建模拟器本身通常很困难,并且建模偏差通常不可避免。本文的目的有两个。首先,我们回顾了一种最近提出的\emph离线评估技术。与基于模拟器的方法不同,该方法完全由数据驱动,易于适应不同的应用,更重要的是,提供可证明的无偏评估。我们认为在实际问题中比较 Bandit 算法时,应广泛采用该技术作为标准做法。其次,作为该技术的一个应用,我们比较并验证了基于\emph广义线性模型的一些新算法。使用真实的 Yahoo! 数据进行的实验表明,当奖励为二元时,与使用线性模型的算法相比,有显著改进。 ER -
APA
李,L.,楚,W.,Langford,J.,Moon,T. & 王,X.(2012)。基于广义线性模型的上下文 Bandit 算法的无偏离线评估。在线探索与利用交易研讨会 2 论文集,发表于机器学习研究论文集 26:19-36 可从 https://pmlr.com.cn/v26/li12a.html 获取。

相关材料