1
这是机器学习领域中一个基本的问题,有助于你更好地了解机器学习的内涵。
机器学习是一类数据驱动的算法(与“正常”算法不同的是,数据“告诉”了“好答案”是什么)。例如:一个假设的非机器学习算法用于图像中的人脸检测,它将试图定义一张脸是什么样子的(圆形的彩色圆盘,期望眼睛所在的区域较暗等等)。而一个机器学习算法不会有这样的编码定义,它会“通过示例学习”:你会显示出几张人脸图像非人脸图像,最终,一个好的算法可以学习并能够预测一个从未见过的图像是否是人脸。这个特定的人脸检测示例是有监督的,意味着你的示例必须被标记,或者明确地指出哪些是人脸,哪些不是。
在无监督算法中,你的例子没有标记,也就是说你什么都用告诉机器。当然,在这种情况下,算法本身无法“发明”一张人脸,但它可以尝试将数据聚类到不同的组中,例如,它可以区分人脸图像与风景图像的区别,风景图像与动物图像的区别。
除此之外,还有“中间”形式的监督,即半监督和主动学习。从技术上讲,这些都是有监督的方法,它们当中有一些“聪明”的方法来避免大量的标记示例。在主动学习中,算法本身决定你应该标记的内容(例如,它可以很确定地识别出一幅风景和一匹马,但它可能会要求你确认大猩猩是否是一张脸的照片)。在半监督学习中,有两种不同的算法,它们从标记的例子开始,然后“告诉”彼此对大量未标记数据的思考方式,从这个“讨论”的过程中学习。
收藏
这个问题作为初学者确实一直不太明白,感谢!