0
半监督学习
让学习器不依赖外界交互,自动地利用未标记样本提升学习性能,就是半监督学习。
利用未标记样本
要利用未标记样本,必然要提出一些将未标记样本所解释的数据分布信息与类别相联系的假设。最常见的是“聚类假设”,即假设数据存在簇结构,同一个簇的样本属于同一个类别。 半监督学习另一种常见的假设是“流形假设”,即假设数据分布在一个流形结构上,邻近的样本拥有相似的输出值。“邻近”程度常用“相似”程度来刻画,因此,流行假设可看作聚类假设的推广,但流行假设对输出值没有限制,因此聚类假设的适用范围更广,可用于更多类型的学习任务。事实上,无论聚类假设还是流形假设,其本质都是“相似样本拥有相似的输出”
半监督学习算法
半监督学习可以进一步划分为纯半监督学习和直推学习,前者假定训练数据中未标记样本并非待预测数据,而后者则假定学习过程中所考虑的未标记样本恰是待预测数据,学习的目的就是在这些未标记样本上获得最优的泛化性能。 换言之,纯半监督学习是基于“开放世界”假设,希望学得的模型能适用于训练过程中观察到的未标记数据进行预测,如下图所示直观地展示出主动学习、纯半监督学习、直推学习的区别。 需要注意的是,纯半监督学习和直推学习常合称为半监督学习。 半监督学习中存在的四大范型:生成式方法、基于分歧的方法、半监督SVM、图半监督学习
收藏