1
决策树算法是用于学习分类器的算法,即将值向量映射到标签的算法,其中该分类器由决策树表示。这样的树可以被认为是嵌套的if-then-else表达式,其中的条件每次都是向量中值的简单条件。例如,如果输入向量是(a,b,c),那么决策树可能是:
IF a > 5
THEN IF b < 6
THEN RETURN "accept"
ELSE IF a < 15
THEN RETURN "reject"
ELSE RETURN "accept"
ELSE IF c < 10
THEN IF c > 2
THEN RETURN "accept"
ELSE RETURN "reject"
ELSE RETURN "reject"
当然,这也可以表示为一个二叉树,其中每个内部节点都标记有条件,而叶子则标记有返回的分类: 决策树算法的输入是由多个向量及其正确分类组成的输入数据集。例如,可能的输入是:
a b c class.
===============
1 2 1 reject
4 2 3 accept
4 3 10 reject
8 3 2 accept
6 7 5 reject
6 9 7 reject
16 8 11 accept
注意,对于这个输入集,给定的决策树确实正确地分类了所有向量,但具有该属性的决策树并不是唯一的。因此,你不仅需要找到这样的决策树,而且最重要的是找到最合适的决策树。 在这里,“适当”这个概念是由一个事实决定的:即输入是来自大型真实世界集合的样本,并且通过构造决策树来正确地分类这个大集合中的向量。 因此,“适当”的概念将取决于(1)这个较大集合的特征(例如,每个向量的概率)和(2)每个特定情况下错误分类的代价。
收藏