0
考虑最简单的决策树:一条if-else语句。
假设我们要根据某人的身高来预测其性别,我们有10个人的数据,其中粗体为女性,斜体为男性,身高以厘米为单位:
148、157、158、162、164、168、172、176、180、184
我们要找到一个阈值,在该阈值以下我们可以预测女性,否则将预测为男性。
假设我们选择170作为阈值,此时,左侧的组有一个“杂质”(162),而右侧的组没有任何“杂质”。如果我们选择160作为阈值,则左边的组没有杂质,而右边的组有两个杂质(164,168)。
基尼杂质可以看作是量化一个组“好”程度的方法,便于我们更好地选择阈值。查看其公式,可以知道:如果一组中全为女性或全为男性,则基尼杂质为零。如果是50%的男性和50%的女性,那么基尼杂质将为0.5(在这种情况下,它可以保持的最大值),这是最坏的情况。
如果阈值选182会导致一个组5位女性和4位男性,阈值选150会导致5位男性和4位女性为一组,基尼杂质都比较高。因此,我们选择170作为阈值,可以使两组中杂质的比例均较低。
从更大的角度来看,在决策树中决定拆分时,期望最大化父节点基尼杂质和子节点基尼杂质的总和之间的差异。
收藏