[编辑]
第24卷:欧洲强化学习研讨会,2012年6月30日至7月1日,苏格兰爱丁堡
[编辑]
编辑:Marc Peter Deisenroth, Csaba Szepesvári, Jan Peters
[bib][citeproc]
序言
序言
Marc Peter Deisenroth, Csaba Szepesvári, Jan Peters; 第十届欧洲强化学习研讨会论文集, PMLR 24:i-i
[abs][下载PDF]
录用论文
单轨迹强化学习的探索/利用策略学习
Michael Castronovo, Francis Maes, Raphael Fonteneau, Damien Ernst; 第十届欧洲强化学习研讨会论文集, PMLR 24:1-10
[abs][下载PDF]
使用循环后缀树的特征强化学习
Mayank Daswani, Peter Sunehag, Marcus Hutter; 第十届欧洲强化学习研讨会论文集, PMLR 24:11-24
[abs][下载PDF]
通过PAC Bandit在奖励丰富的领域中进行规划
Sergiu Goschin, Ari Weinstein, Michael L. Littman, Erick Chastain; 第十届欧洲强化学习研讨会论文集, PMLR 24:25-42
[abs][下载PDF]
基于能量的策略的Actor-Critic强化学习
Nicolas Heess, David Silver, Yee Whye Teh; 第十届欧洲强化学习研讨会论文集, PMLR 24:45-58
[abs][下载PDF]
具有迁移知识的强化学习中的定向探索
Timothy A. Mann, Yoonsuck Choe; 第十届欧洲强化学习研讨会论文集, PMLR 24:59-76
[abs][下载PDF]
基于图的聚类进行在线技能发现
Jan Hendrik Metzen; 第十届欧洲强化学习研讨会论文集, PMLR 24:77-88
[abs][下载PDF]
离散马尔可夫决策过程中的离线策略学习的经验分析
Cosmin Păduraru, Doina Precup, Joelle Pineau, Gheorghe Comănici; 第十届欧洲强化学习研讨会论文集, PMLR 24:89-102
[abs][下载PDF]
在随机环境中EXP3算法的性能评估与分析
Yevgeny Seldin, Csaba Szepesvári, Peter Auer, Yasin Abbasi-Yadkori; 第十届欧洲强化学习研讨会论文集, PMLR 24:103-116
[abs][下载PDF]
梯度时序差分网络
David Silver; 第十届欧洲强化学习研讨会论文集, PMLR 24:117-130
[abs][下载PDF]
半监督模仿学习
Michal Valko, Mohammad Ghavamzadeh, Alessandro Lazaric; 第十届欧洲强化学习研讨会论文集, PMLR 24:131-142
[abs][下载PDF]
用于结构化预测的模仿学习算法研究
Andreas Vlachos; 第十届欧洲强化学习研讨会论文集, PMLR 24:143-154
[abs][下载PDF]
基于Rollout的游戏树搜索优于传统的Alpha-beta
Ari Weinstein, Michael L. Littman, Sergiu Goschin; 第十届欧洲强化学习研讨会论文集, PMLR 24:155-167
[abs][下载PDF]