0
通常,我们可以通过实验测试来对学习器的泛化误差进行评估并进而做出选择。为此,需要使用一个测试机来测试学习器对新样本的判别能力,然后以测试机上的“测试误差”作为泛化误差的近似,通常我们假设测试样本也是从样本的真实分布中独立同分布采样取得。
- 留出法:直接将数据集D划分为两个互斥的集合,其中一个集合作为训练集S,另一个作为测试集T,在S上训练出模型之后,用T来评估其测试误差,作为泛化误差的估计
- 交叉验证法:先将数据集D划分为k个大小相似的互斥子集,每个子集都尽可能的保持数据的一致性,即从D中通过分层采样取到。然后,每次用k-1个子集的并集作为训练集,余下的作为测试集;这样就可获得k组训练/测试集,从而可进行k次训练和测试,最终返回的是这k个测试结果的均值
- 自助法:直接以自主采样法为基础。给定包含m个样本的数据集D,我们对它进行采样产生数据集D’,然后再将该样本放回初始数据集D中,使得该样本在下次采样中仍然可以被取到;这个过程执行m次之后,我们就得到了包含m个样本的数据集D’,这就是自助采样的结果。通过自助采样数据集D张约有36.8%的样本未出现在数据集D’中。于是D’用作训练集,D\D’用作测试集。
收藏