0
EOOC编码对于分类器的错误具有一定的容忍和修正能力。 假设在预测时某个分类器出错了,导致了错误的编码,但是基于这个错误的编码仍然能够产生正确的的最终分类结果。 一般来说,对于同一个学习任务,EOOC编码越长,纠错能力越强。然而,编码越长,意味着所需训练的分类器越多,计算、存储开销都会增大;另一方面,对于有限别数,可能组合数目是有限的,码长超过一定范围之后就失去了意义。 对于同等长度的编码,理论上来说,任意两个类别之间的编码距离越远,则纠错能力越强。因此,在码长较小时可根据这个原则计算出理论最优编码。然而,码长稍大一些就难以有效的确定最优编码,事实上这是NP难问题。 不过,通常我们并不需要获得理论最优编码,因为非最优编码在实践中往往已经能够产生足够好的分类器。另一方面,并不是编码的理论性质越好,分类性能就越好,因为机器学习问题涉及多个因素,例如将多个分类问题拆解为两个“类别子集”,不同拆解方式所形成的两个类别子集的区分难度往往不同,即其导致的二分类问题的难度不同。于是,一个理论纠错性质很好、但导致的二分类问题比较难的编码,与一个理论性质差一些,但是导致二分类问题较为简单的编码,最终产生的模型性质孰强孰弱很难说。
收藏