决策树中如何处理连续值的问题?
0 1029
0
该提问暂无详细描述
收藏
2021-02-04 12:40 更新 小眼的铁板烧 •  3526
共 1 个回答
高赞 时间
0

现实学习任务中常会遇到连续属性,由于连续属性取值数目不再有限,不能根据连续属性的可取值来对结点进行划分。 此时,连续属性的离散化技术可以派上用场。最简单的策略是二分法对连续属性进行处理,这是C4.5采用的机制。 给定样本集D和连续属性a。假设a在D上出现了n个不同的取值,将这些值从小到大进行排序,记为{a1,a2,…an}。基于划分点t可将D分为自己Dt-,Dt+,其中Dt-包含那些在属性a上取值不大于t的样本,而Dt+则包含那些在属性a上取值大于t的样本。 显然,对相邻的属性取值ai与ai+1来说,t在区间[ai,ai+1)中取任意值所产生的划分结果相同。因此,对连续属性a,我们可考察包含n-1个元素的候选划分点集合: 即把区间[ai,ai+1)的中位点(ai+ ai+1)/2作为候选划分点。然后,我们就可像离散属性值一样来考察这些划分点,选取最优的划分点进行样本集合的划分。

收藏
2021-02-04 12:45 更新 空心人 •  3374