三思而后行:关于使用交叉验证进行学习者评估的一些见解

Gitte Vanwinckelen,Hendrik Blockeel
ECML/PKDD统计可靠数据挖掘研讨会论文集,PMLR 47:3-20,2015。

摘要

机器学习很大程度上是一门实验科学,预测模型评估是其重要方面。如今,交叉验证是这项任务中使用最广泛的方法。然而,在使用这种方法时,应该考虑一些重要的点。首先,应该清楚地说明想要估计什么。即,应该区分在单个数据集上学习的模型评估,以及在给定数据群体的随机样本上训练的学习者的评估。这两个问题中的每一个都需要不同的统计方法,不应将它们混淆。虽然之前已经注意到这一点,但关于这个主题的文献通常不太容易理解。本文试图对这两个评估任务的统计方面提供一个易于理解的概述。我们还认为,由于数据通常有限,并且难以选择合适的统计检验,在某些情况下,最好放弃统计检验,而是专注于对直接结果的解释。

引用本文


BibTeX
@InProceedings{pmlr-v47-vanwinckelen14a, title = {三思而后行:关于使用交叉验证进行学习者评估的一些见解}, author = {Vanwinckelen, Gitte and Blockeel, Hendrik}, booktitle = {ECML/PKDD统计可靠数据挖掘研讨会论文集}, pages = {3--20}, year = {2015}, editor = {Hämäläinen, Wilhelmiina and Petitjean, François and Webb, I.}, volume = {47}, series = {机器学习研究论文集}, address = {法国南锡}, month = {15 Sep}, publisher = {PMLR}, pdf = {https://pmlr.com.cn/v47/vanwinckelen14a.pdf}, url = {https://pmlr.com.cn/v47/vanwinckelen14a.html}, abstract = {机器学习很大程度上是一门实验科学,预测模型评估是其重要方面。如今,交叉验证是这项任务中使用最广泛的方法。然而,在使用这种方法时,应该考虑一些重要的点。首先,应该清楚地说明想要估计什么。即,应该区分在单个数据集上学习的模型评估,以及在给定数据群体的随机样本上训练的学习者的评估。这两个问题中的每一个都需要不同的统计方法,不应将它们混淆。虽然之前已经注意到这一点,但关于这个主题的文献通常不太容易理解。本文试图对这两个评估任务的统计方面提供一个易于理解的概述。我们还认为,由于数据通常有限,并且难以选择合适的统计检验,在某些情况下,最好放弃统计检验,而是专注于对直接结果的解释。 } }
Endnote
%0 会议论文 %T 三思而后行:关于使用交叉验证进行学习者评估的一些见解 %A Gitte Vanwinckelen %A Hendrik Blockeel %B ECML/PKDD统计可靠数据挖掘研讨会论文集 %C 机器学习研究论文集 %D 2015 %E Wilhelmiina Hämäläinen %E François Petitjean %E I. Webb %F pmlr-v47-vanwinckelen14a %I PMLR %P 3--20 %U https://pmlr.com.cn/v47/vanwinckelen14a.html %V 47 %X 机器学习很大程度上是一门实验科学,预测模型评估是其重要方面。如今,交叉验证是这项任务中使用最广泛的方法。然而,在使用这种方法时,应该考虑一些重要的点。首先,应该清楚地说明想要估计什么。即,应该区分在单个数据集上学习的模型评估,以及在给定数据群体的随机样本上训练的学习者的评估。这两个问题中的每一个都需要不同的统计方法,不应将它们混淆。虽然之前已经注意到这一点,但关于这个主题的文献通常不太容易理解。本文试图对这两个评估任务的统计方面提供一个易于理解的概述。我们还认为,由于数据通常有限,并且难以选择合适的统计检验,在某些情况下,最好放弃统计检验,而是专注于对直接结果的解释。
RIS
TY - CPAPER TI - 三思而后行:关于使用交叉验证进行学习者评估的一些见解 AU - Gitte Vanwinckelen AU - Hendrik Blockeel BT - ECML/PKDD统计可靠数据挖掘研讨会论文集 DA - 2015/11/27 ED - Wilhelmiina Hämäläinen ED - François Petitjean ED - I. Webb ID - pmlr-v47-vanwinckelen14a PB - PMLR DP - 机器学习研究论文集 VL - 47 SP - 3 EP - 20 L1 - https://pmlr.com.cn/v47/vanwinckelen14a.pdf UR - https://pmlr.com.cn/v47/vanwinckelen14a.html AB - 机器学习很大程度上是一门实验科学,预测模型评估是其重要方面。如今,交叉验证是这项任务中使用最广泛的方法。然而,在使用这种方法时,应该考虑一些重要的点。首先,应该清楚地说明想要估计什么。即,应该区分在单个数据集上学习的模型评估,以及在给定数据群体的随机样本上训练的学习者的评估。这两个问题中的每一个都需要不同的统计方法,不应将它们混淆。虽然之前已经注意到这一点,但关于这个主题的文献通常不太容易理解。本文试图对这两个评估任务的统计方面提供一个易于理解的概述。我们还认为,由于数据通常有限,并且难以选择合适的统计检验,在某些情况下,最好放弃统计检验,而是专注于对直接结果的解释。 ER -
APA
Vanwinckelen, G. & Blockeel, H. (2015). 三思而后行:关于使用交叉验证进行学习者评估的一些见解. ECML/PKDD统计可靠数据挖掘研讨会论文集, in 机器学习研究论文集 47:3-20 可从 https://pmlr.com.cn/v47/vanwinckelen14a.html 获取.

相关材料