0
稀疏表示
不妨把数据集D考虑成一个矩阵,其每行对应于一个样本,每列对应于一个特征。特征选择所考虑的问题是特征具有稀疏性,即矩阵中的许多列与当前学习任务无关,通过特征选择除去这些列,则学习器训练过程仅需在较小的矩阵上进行,学习任务的难度很有可能会有所降低,设计的计算和存储开销会减少。学得模型的可解释性也会提高。 现在我们来考虑另一种稀疏性:D所对应的矩阵中存在很多零元素,但这些零元素并不是以整列、整行形式存在的。在不少现实应用中我们会遇到这样的情形,例如在文档分类任务中,通常将每个文档看作一个样本,每个字作为一个特征,字在文档中出现的频率或者次数作为特征的取值;换言之,D所对应的矩阵的每行是一个文档,每列是一个字,行、列交汇处就是某字在某文档中出现的频率或者次数,那么,这个矩阵有多少列呢?以汉语字典为例,这个矩阵可有四万多列,考虑到相当多的字是不出现在这个文档中的,于是矩阵的每一行都有大量的零元素;对不同的文档,零元素出现的列往往不同。
用处
当样本具有稀疏表达形式时,对学习任务来说会有不少好处,例如线性支持向量机之所以能在文本数据上有很好的性能,恰恰是因为文本数据在使用伤处字频表示后具有高度的稀疏性,使大多数问题变得线性可分同时系数样本并不会造成存储上的巨大负担,因为稀疏矩阵已有很多高效的存储办法。
收藏