如何理解机器学习中的决策树算法?
0 637
2
该提问暂无详细描述
收藏
2021-01-14 14:15 更新 天明 •  1292
共 1 个回答
高赞 时间
1

决策树算法是用于学习分类器的算法,即将值向量映射到标签的算法,其中该分类器由决策树表示。这样的树可以被认为是嵌套的if-then-else表达式,其中的条件每次都是向量中值的简单条件。例如,如果输入向量是(a,b,c),那么决策树可能是:

IF  a > 5  
THEN IF b < 6 
     THEN RETURN "accept" 
     ELSE IF a < 15 
          THEN RETURN "reject" 
          ELSE RETURN "accept" 
ELSE IF c < 10 
     THEN IF c > 2 
          THEN RETURN "accept" 
          ELSE RETURN "reject" 
     ELSE RETURN "reject"

当然,这也可以表示为一个二叉树,其中每个内部节点都标记有条件,而叶子则标记有返回的分类: 决策树算法的输入是由多个向量及其正确分类组成的输入数据集。例如,可能的输入是:

 a  b  c  class. 
=============== 
 1  2  1  reject 
 4  2  3  accept 
 4  3 10  reject 
 8  3  2  accept 
 6  7  5  reject 
 6  9  7  reject 
16  8 11  accept 

注意,对于这个输入集,给定的决策树确实正确地分类了所有向量,但具有该属性的决策树并不是唯一的。因此,你不仅需要找到这样的决策树,而且最重要的是找到最合适的决策树。 在这里,“适当”这个概念是由一个事实决定的:即输入是来自大型真实世界集合的样本,并且通过构造决策树来正确地分类这个大集合中的向量。 因此,“适当”的概念将取决于(1)这个较大集合的特征(例如,每个向量的概率)和(2)每个特定情况下错误分类的代价。

收藏
2021-01-14 14:19 更新 Lisa •  1800