0
现实学习任务中常会遇到连续属性,由于连续属性取值数目不再有限,不能根据连续属性的可取值来对结点进行划分。 此时,连续属性的离散化技术可以派上用场。最简单的策略是二分法对连续属性进行处理,这是C4.5采用的机制。 给定样本集D和连续属性a。假设a在D上出现了n个不同的取值,将这些值从小到大进行排序,记为{a1,a2,…an}。基于划分点t可将D分为自己Dt-,Dt+,其中Dt-包含那些在属性a上取值不大于t的样本,而Dt+则包含那些在属性a上取值大于t的样本。 显然,对相邻的属性取值ai与ai+1来说,t在区间[ai,ai+1)中取任意值所产生的划分结果相同。因此,对连续属性a,我们可考察包含n-1个元素的候选划分点集合: 即把区间[ai,ai+1)的中位点(ai+ ai+1)/2作为候选划分点。然后,我们就可像离散属性值一样来考察这些划分点,选取最优的划分点进行样本集合的划分。
收藏