1
剪枝是决策树学习算法对付“过拟合”的主要手段。在决策树学习中,为了尽可能正确分类训练样本,节点划分过程将不断重复,优势会造成决策树分支过多,这是就可能因为训练样本学得太好了,以至于把训练集的一些特点当作所有数据都具有的一般性质而导致过拟合。因此,可通过主动去掉一些分支来降低过拟合风险。决策树剪枝策略有“预剪枝”和“后剪枝”
预剪枝
预剪枝是指在决策树生成过程中,对每个节点在划分前进行估计,若当前节点的划分不能带来决策树泛化性能提升,则停止划分并将当前节点标记为叶节点;
后剪枝
后剪枝则是先从训练集生成一棵完整的决策树,然后自底向上地对非叶节点进行考察,若将该节点对应的子树替换为叶节点能带来决策树泛化性能提升,则将该子树替换为叶节点。
判断泛化性能提升
可以使用性能评估的方法,比如留出法,即预留出一部分数据用作“验证集”以进行性能评估。并且可以采用信息增益作为准则来进行属性选择。
收藏